ويكي:تنقية و تطبيع البيانات

أحيانا تكون الصيغة الوحيدة المنشورة فيها جداول البيانات صيغ جداول نصية غنية التنسيق يُقصد بها القرّاء من البشر و الطباعة، لكنّها لذلك لا تكون ملائمة لمعالجتها بالبرمجيات. لذا يتوجّب معالجتها و حفظها في صيغة نظامية تمكن معالجتها بالبرمجيات، مثل صيغة CSV.

و تلك المعالجة تكون بطريق إزالة كل علامات التنسيق الغني (formatting)، و وضع البيانات في صيغ متّسقة، و جعل الحقول تحوي قيما نووية (atomic)، لا مُركَّبة، بحيث تحوي كُلُّ الصفوف في كل عمود نوعا واحدًا من البيانات، و بحيث يحوي كُلُّ صفٍّ سجلا كاملا مستقلا بذاته لا يعتمد على غيره لتفسير مضمونه.

الخطوات التفصيلية التي ينبغي اتباعها لإجراء ذلك التنظيف و التطبيع (normalisation) تختلف من مصدر إلى آخر، لكن يمكن بدراسة الملفات المصادر المتماثلة أو المجلوبة من مصدر واحد أو المعدّة بنفس الأسلوب استنباط مجموعة من الإجراءات التي يمكن تطبيقها عليها جميعا للوصول بها إلى الحالة المنشودة.

الخطوات العامة

  1. إزالة دمج كل خلايا الترويسات في الجدول؛ في عناوين الأعمدة و في قيم الصفوف المكررة\الشاملة
  2. إعادة صياغة الجزء الأكثر تخصيصًا من عناوين الخلايا المدمجة عديدة المستويات بحيث يكون مميَّزًا و شاملا كل الدلالة المعرفية للعناوين في المستويات الأعم، بكلمات أخرى فإن هذا يعني استحداث التكرار في الصياغة الذي كان قد اختزل بعمل عناوين مركبة من عدة مستويات. مثال:
┐───────────────────────┌
│      شبكة عامة        │
┤────────┬──────────────├
│عدد الأسر│عدد أفراد الأسر│
┤────────┼──────────────├

يصبح:

┐──────────────────────┬────────────────────────────┌
│عدد الأسر على شبكة عامة│عدد أفراد الأسر على شبكة عامة│
┤──────────────────────┼────────────────────────────├
  1. إزالة أعمد و صفوف الإجماليات
  2. ملء الخلايا التي صارت فارغة بعد إزالة الدمج عن الأعمدة بقيمها المستمدة من أوّل خلية غير شاغرة فوقها (طالع التلميحات)
  3. تطبيع النصوص من نواحي: إزالة الكشيدات، و تصويب الإملاء (الهمزات، التاءات المربوطة، الياءات الأخيرة)
  4. إزالة العلامات الإضافية في الخلايا، مثل إحالات الملاحظات، مع حفظ المعلومات المتعلّقة بها لتوثيقها في مكان آخر بحيث لا تُغفل الملاحظات لأهميتها في تفسير البيانات


تلميحات مساعدة

في ليبرأوفس:

  • تمكن إزالة الدمج عن خلايا الجدول بطريق اختيار Format -> Merge Cells -> Split cells.
  • تمكن إزالة صفوف الإجماليات بطريق تطبيق مرشّح (filter) لإظهارها وحدها ثم حذفها جملةً.

في لمستخدمي ليبرأوفس كالك يُجرى ذلك من Data -> More filters -> Standard filter

  • الماكرو المشروح استعماله فيما يلي يساعد على ملء الخلايا بعد إزالة الدمج عنها.

استخدام ماكرو لملء خلايا الأعمدة بعد إزالة الدمج عنها

يمكن استخدام ماكرو لليبرأوفيس لملء خلايا الأعمدة التي تصبح شاغرة بعد إزالة الدمج عنها.

الماكرو برنامج بسيط، و هو تسجيل لخطوات يمكن أن نجريها يدويا، بحيث يمكن تكرار تلك الخطوات آليا بلا حاجة لفعل ذلك بأنفسنا؛ فهو مفيد في المهام الرتيبة والمتكررة التي لا نحتاج أن نقوم بها نحن البشر. بمعنى آخر، ماكرو ملء الخانات يمكننا من تكرار خطوة ملء خلية خلية بعدما تصبح فارغة بعد إزالة الدمج عنها. يمكن استخدام الماكرو السابق ذكره كما يلي:

  1. تنزيل ملف ماكرو لليبرأوفيس على جهازك، وحفظه في مكتبة سكربتات ليبرأوفيس. في نظام تشغيل لنكس يكون ذلك في دليل باسم python في المسار التالي /home/(your_username)/config/libreoffice/4/user/Scripts

أما في نظام وندوز فهو المسار التالي \AppData\Roaming\LibreOffice\4\user\scripts\python

  1. للتأكد أن الماكرو ظاهر في قائمة الماكروات في ليبرأوفيس: إذهب إلى Tools -> Macros -> Run Macros ستجد الماكرو أسفل قائمة My Macros، حيث يمكن تشغيله

يمكن كذلك اختياريا تعيين زرّ في الوثيقة لتسهيل تشغيل الماكرو:

  1. أظهر شريط أدوات التحكم من طريق View -> Toolbars -> Form controls. ثم يمكن رسم زرار جديد بالضغط على Push button و المرسوم عليه رمز OK. أنقر على الزرار الأيمين في الفارة ثم إختاري Control. ستفتح لك نافذة اذهبي إلى -> Events-> Mouse button pressed -> Macro ->My Macros ->fill_unmerger_gaps -> range_head_filler
  2. يمكن تعيين عنوان للزر لكن يجب قبل ذلك التأكد من كون التطبيق في طور التصميم بالذهاب إلى شريط Form Controls ثم الضغط على Design Mode في أقصى اليمين أعلى الشريط. ثم الضفط على الزر الأيمن للفأرة والذهاب إلى Control -> General وتغيير عنوان زر الماكرو في حقل Label

يُستعمل الماكرو بعد إزالة الدمج عن خلايا باختيار المنطقة المطلوب ملؤها، ثم يُفعّل الماكرو إما من قائمة الماكرو أو بالزرّ.