نقاش ويكي:تنقية و تطبيع البيانات

اذهب إلى التنقل اذهب إلى البحث

حول هذه الصفحة

غير قابلة للتعديل

في تنقية البيانات

6
أحمد (نقاشمساهمات)

المسائل التالية برزت أثناء شغلي على ملف:الصرف الصحي.xlsx:

  • أسماء المحليات محفوظة في الملف مع ذكر التسميات السابقة و على نحو غير نظامي، بمعنى أنها مذكورة في نفس العمود مع وصف "سابقًا". الحل ال أقترحه فصل الأسماء السابقة إلى عمود منفصل أينما وُجِدت. علما بأني ماأحدثتش دا في الملف ال اشتغلت عليه انتظارًا لنقاشنا و مقترحاتكم. سؤال ذو علاقة: هل فيه تكويد للمحليات بمعرّفات نظامية غير أسمائها؟
  • الأسماء ينبغي تصويبها إملائيًا بالمخالفة للتقاليد البيروقراطية المصرية العتيدة لتمكن مطابقتها مع عناوين الصفحات في الويكي و من ثمّ جلب و عرض البيانات فيها و الربط ما بين الصفحات في الويكي، و التصنيف، إلخ
  • قد توجد في الملف ملاحظات يجب تسجيلها بعد تطبيع البيانات. عملت قالب:بيانات ملف إحصاء خطوة أولى لتنميط وصف بيانات ملفات الإحصاءات، و فيه حقل للملاحظات المحفوظة من الملف الأصلي. في الملف ال اشتغلت عليه الملحوظة كانت غامضة جدا من ناحيتين في نظري:
  1. كانت مشار إليها بعلامة في عمود " إجمالي الأسر والأفراد" و نصّها "يشمل الأفراد الأجانب الموجودين في الأسر المصرية". لكن منطقيا إذا دا ينطبق على حقل الإجمالي فدا معناه منطقيا أنها منطبقة على حقول المفردات، يعني على كلّ الأرقام في الجدول.
  2. علامة النجمة موجودة على أسماء شياخات عديدة لسبب غير مفهوم!

محتاجين كمان نسجّل سنوات التعداد. ممكن يا @مروة بركات تغيّري اسم الملف إلى "الصرف الصحي - تعداد السنة"

كريم (نقاشمساهمات)

@مروة بركات 2017 دي سنة الإصدار الرسمية؟

@أحمد أشتغلت شوية على ملف:مصدر مياه الشرب.xlsx ضمن ملفات التعبئة والإحصاء لنفس السنة. أولا، شكرا على الماكرو، ساعد كتير

ثانيا، موافقك أننا محتاجين نشتغل على التصويب الإملائي للأسماء. بالإضافة إلى عدم مطابقتها مع عناوين الصفحات في الويكي، هي مش متسقة مع نفسها في أحيان كتير ومفيش نسق مفهوم قوي للقواعد الإملائية زي مثلا التبادل الأزلي بين منشية ومنشأة أو جنينة وجنينه وطره وطرة أو استخدام الألف اللينة بدل الياء...إلخ.

ثالثا، عندي سؤالين بخصوص صفوف الإجمالي:

  • أخدت بالي أنك سايب صفوف الإجمالي للمحافظات في ملف الصرف الصحي رغم انك بتنصح بحذف صفوف الإجمالي عامة فهل دا له سبب؟
  • أنا فاهم أن الإجماليات مش محتاجينها في الملفات عشان نعرف نعالج الملف ببمرجيات أخرى فميكونش محتوى الصفوف متغير (وأننا في كل الأحوال الإجمالي ممكن نحسبه لو هنستخدم البيانات دي لغرض ما) بس ممكن كمان توضح لي لو فيه سبب تاني؟

رابعا، نفس النجمة موجودة في نفس الشياخات لكن بدون ملاحظة مدونة على الملف.

هل محتاجين محتاجين نشتغل على كود مفصل لتنقية وتطبيع ملفات البيانات ليشمل التصويب الإملائي للأسماء؟

أحمد (نقاشمساهمات)

أنا مبسوط أنك قدرت تستعمل الماكرو و أنك لقيته مفيد. يكون جميل إذا نقّحت الصفحة بشرح كيفية استعمال الماكرو.

بخصوص صف الإجماليات ال أنت لاحظته أنا أكيد نسيته. أنا عدت الشغل على الملف أكثر من مرّة بغرض تجريب الماكرو و مراجعة وصف الخطوات، فمحتمل في مرّة لاحقة أكون غفلت عنه.

ملاحظتك عن النجمة في أسماء الشياخات صحيحة و أنا لاحظتها، و كنت ناوي أذكرها في اجتماعنا القادم لأني مش فاهم معناها.

بخصوص كود توحيد إملاء أسماء المحليات فممكن نلاقي أسلوب آلي أو شبه آلي يقلل الجهد. خلينا الأوّل نتكلّم في أثر دا و نسمع آراء الآخرين في الاجتماع، و أكون فكّرت شوية كمان.

Amany Sadeq (نقاشمساهمات)

انا اشتغلت بطريقة معينة في ملفات محافظة القاهرة بس دلوقت مش مقتنعة بيها , يعني مثلا أي كلمة بألف بدون همزة اكتبها بهمزة و حرف ى اكتبه ي و هكذا , بس أظن كدا الكلمات مش هتبقى شبه بعضها في كل الملفات , يعني ممكن حد تاني يشتغل في ملف تاني بطريقة مختلفة ، أو انا انسى كلمات من غير تعديل

أظن الأفضل نسيب كلمات الشياخات زي ما هي لو متشابهة في كل الملفات , لأن في مشكلة لو غيّرنا الحروف بشكل تلقائي باستخدام سكريبت ممكن أسماء شياخات تانية تبقى غلط , زي مثلا في قرى في الجيزة اسمها مسجد موسى - غمازة الصغرى - غمازة الكبرى

أحمد (نقاشمساهمات)

صحيح يا @Amany Sade، عدم الاتساق في إملاء المحليات مشكلة ضمن مشاكل أخرى محتاجة حلول، منها تغيّر أسماء المحليات أحيانا فيما بين الإحصاءات (مع احتفاظاها بحدودها الجغرافية). العرف في نظم المعلومات الحكومية إغفال الهمزات تماما، و كذلك اتعمال الياء الأخيرة عير المنقوطة دايما، و الهاء بدل التاء المربوطة كمان (حتى في أسماء الأشخاص في الأوراق الثبوتية).

مش عارف الحل الأفضل إيه ال يخلينا مانستحدثش أخطاء، و لكن كمان يخلينا نقدر نربط تلقائيا بين أقسام المعلومات المختلفة في الويكي. نظريا، المفروض بكون في جدول للمقابلة بين الاسماء الصحيحة إملائيا و الأسماء الحكومية، و كذلك جدول للمقابلة بين الأسماء السابقة و الحالية، و النظام يعمل تطبيع (normalisation) تلقائيا عند اللزوم، زي عند البحث مثلا. لكن ماعندناش حاجة زي كدا حاليا و محتاج أفكّر تتعمل ازاي تقنيا.

كريم (نقاشمساهمات)

@أحمد إحنا أتناقشنا في أسماء الأقسام والشياخات وهنعمل فيها إيه. وكان فيه تفضيل أنه نسيب الأسماء الرسمية زي ما هي؛ بحيث يبقى الاسم الرسمي موجود لأي أغراض بحثية حتى لاحقة. وأنه لو عايزين نعمل تصويبات إملائية ممكن نعملها في عمود جديد. فهل فدا ممكن يفيدنا مثلا أنه نخلق منه صفحات تحويل بعدين؟

استعمال الماكرو

1
أحمد (نقاشمساهمات)

@شكرا يا @كريم على خطوات استعمال الماكرو.

طريقة إنشاء الزر ال أنت لقيتها و شرحتها تنشئ الزر في الوثيقة لا في شريط الأدوات، بمعنى أنه عند العمل على وثيقة أخرى لن يكون الزّر موجودا فيها. توجد طريقة أخرى لإضافة زر إلى شريط الأدوات و تعيين الماكرو له.

لا توجد نقاشات أقدم