Presentation is loading. Please wait.

Presentation is loading. Please wait.

أهمية معالجة النصوص العربية باستخدام الحاسب

Similar presentations


Presentation on theme: "أهمية معالجة النصوص العربية باستخدام الحاسب"— Presentation transcript:

1 أهمية معالجة النصوص العربية باستخدام الحاسب
التصحيح الآلي التشكيل الآلي مر طائر عبْر النفق درس : ( دَرَسَ , دُرِسَ , دَرْس , دُرِّسَ , دَرَّسَ ) درس زيد الطلاب بإخلاص

2 لمحة تاريخية إنفو آرب www.isisintl.com/linguistics
- " أبجد هوز " عام 1990م - " سيبويه " عام 1993م آي بي إم صخر كولتك - المدققان الإملائي والنحوي الأكثر استخداماً حالياً مع برنامج مايكروسوفت وورد طرح المدقق الإملائي أول مره مع وورد في الإصدار 6.0 منه , عام 1992 م , من إنتاج شركة كولتك , وهي أيضا الشركة التي طورت المدقق النحوي لمايكروسوفت وورد , الذي طرح أول مرة مع الإصدار 2000 منه . وتركزت تقنياتها التي تشمل مختلف جوانب اللغة العربية على أبحاث بدأت مبكراً عام 1980.

3 التشكيل الآلي طرق التشكيل : 1 ) التشكيل بالقوانين Rule Based
2 ) التشكيل بالإحصاء Statistics 3 ) التشكيل بالإحصاء مدموجاً ببعض القوانين اللسانية لو كان تكرار ورود كلمة " من " في النص هو : مِنْ : مرة مَنْ : مرة مَنَّ : مرة فإن احتمالية ورودها في أي نص جديد يكون بالتشكيل الأول أكثر من التشكيل الثاني بالنسب التالية 1:10:30 , ومن ثم فإن الحاسب سيعمد إلى التشكيل بالاحتمالية الأعلى وهو " مِنْ " حتى في عبارة مثل " من جاء بالكتاب " , رغم أن التشكيل السليم هو " مَنْ " . وفي هذه الحالة فإن قانونً مثل : الفعل لا يكون مسبوقاً إلا بـ " مَنْ " أما " مِنْ " و " مَنَّ " فإنها لا تسبق الفعل , وهنا ستكون الأفضلية في الاختيار هي التشكيل الثاني .

4 التشكيل الآلي خيارات التشكيل : - تشكيل جميع الحروف عدا الحرف الأخير من الكلمة فَيُسَكَّن . - تشكيل آخر الكلمة . - تشكيل جميع الحروف بما فيها الحرف الأخير من الكلمة . ورغم انه يبدو للقارئ أن الخيار الأول أيسر من الخيارات الأخرى نظراً لاستبعاد تشكيل الحرف الأخير المتعلق بقواعد النحو , إلا أن قواعد التشكيل داخل الكلمة متداخلة مع المستويات الأخرى للغة كالصرف والنحو والدلالة . وقفت بدارهم إن الله بريء من المشركين ورسوله

5 مُشَكِّل نهاية الكلمات
التشكيل الآلي نص غير مُشَكَّل سابق التحليل المحلل الدلالي المحلل الصرفي المحلل النحوي مُشَكِّل نهاية الكلمات المُشَكِّل الآلي نص مُشَكَّل المعجم - هذا الشكل يوضح المكونات المطلوبة للمشكل الآلي عند التشكيل باستخدام القوانين اللغوية

6 OCR المصحح الإملائي ضمن
كلمة صحيحة شكل نصي كلمة خطأ التعرف على الحروف OCR مدقق إملائي إدخال الوثيقة معاون هجائي قائمة البدائل الصحيحة المصحح الإملائي فكرة عمل هذا النظام .

7 OCR المصحح الإملائي ضمن
أجزاء المصحح الإملائي : - المدقق الإملائي - المعاون الهجائي : ويعتمد على أربعة قوانين تتحكم في نوعية البدائل المقترحة وهي : 1 ) قوانين التطابق الحرفي 2 ) قوانين الصوتيات : مثال على ذلك كلمة " اصتطاع " تكون اقرب كلمة بناءً على القوانين هي كلمة " استطاع " وليس " اقتطاع " وكلتاهما صحيحة لان س و ص متشابهان صوتياً ) قوانين الشكل الحرفي 4 ) قواعد معتمدة على برنامج الآلة القارئة

8 OCR المصحح الإملائي ضمن
الكلمة الخطأ حذف اللواحق أو السوابق افتراضيا جسم الكلمة نظام مطابق الأنماط قائمة بالبدائل الصحيحة ( من المعجم ) قائمة من الكلمات بعد إضافة السوابق واللواحق المدقق الإملائي قائمة بالكلمات الصحيحة فكرة عمل المعاون الهجائي

9 OCR المصحح الإملائي ضمن
نظرية عمل مطابق الأنماط :   1) عند دخول الكلمة الخطأ يتم توليد قائمة أولية للبدائل المقترحة من المعجم بناءا على التوزيع الإحصائي والذي يتم حسابه قبل الدخول في النظام. 2) يتم حساب مقدار التطابق بين الكلمة الخطأ والكلمات الموجودة في القائمة الأولية. 3) يعاد ترتيب الكلمات في القائمة تنازليا تبعا لقيم مقدار التطابق. 4) يتم اختيار أعلى مجموعة من الكلمات حسب اختيار المستخدم.

10 معوقات حالت دون سرعة تطور تطبيقات معالجة اللغة العربية
ندرة الباحثين العرب والشركات المتخصصة في هذا المجال عدم التعاون الأمثل بين الشركات والباحثين صعوبة اللغة العربية مثل اتصالها بما بعدها وتداخلها الرأسي و وجود اكثر من شكل للحرف أن اللغة العربية لغة غنية بالمفردات والقواعد

11 بعض من منتجات الشركات شركة اراميديا A ramedi A ( Arabic Automatic Diacritizer (AAD هذا البرنامج يساعد في تشكيل الكلمات آليا, و هو معالج ذكي مبني على أساس برنامج آخر من نفس إصدارات هذه الشركة يطلق عليه Multi-Mode Morphological Processor ((MMMP حيث يقوم البرنامج بعرض خيارات للتشكيل : طور التشكي الكامل , طور الضبط الإعرابي , طور التشكيل الإلزامي. وهذا البرنامج يعتبر مدخلا لأداء كتابه عربيه محكمة الضبط .

12 الشركة الهندسية لتطوير نظم الحاسبات RDI تقنية " المشكِّل الآلي للنص العربي" الذي يدعى RDI ArabDiac .
  أَهَمّ الخصائص والإمكانات: - هذه التقنية مبنية على تقنية RDI ArabMorpho© 3.0 كما ذكرنا سابقا أن المشكل الآلي يعتمد على برامج أخرى كالمدقق الإملائي والنحوي - التعامل مع الكلمات غير العربية المكتوبة بحروف عربية. - إمكانية التعامل مع الاختصارات الشهيرة والأرقام بصِيَغِها المتنوعة ورَدِّها إلى صورتها النصية. - حَلّ مشكلة التقاء الساكنين بين الكلمات المتتالية في النص العربي. - سرعة التشكيل الآلي للنصوص العربية تصل إلى 100 كلمة/ثانية . - دقة عالية للتشكيل الآلي تزيد عن 95%

13

14 آلية تشكيل النص العربي - يتم إدخال نص عربي خام (مثل نصوص الجرائد) ثم تقوم هذه الآلية بتشكيله على نمط من عدة أنماط : (تشكيل إملائي، تشكيل صوتي، تشكيل صوتي بصيغة IPA ) - وتعتمد هذه التقنية على عدة تقنيات من بينها تقنية التحليل الصرفي العربي، تقنية النحو الصوتي العربي، - تعتبر تقنية التشكيل الآلي للنص العربي بنية تحتية لعدد من تقنيات معالجة الصوت العربية مثل؛ تخليق الكلام المنطوق من الكلام العربي المكتوب

15

16 معهد بحوث الحاسب والإلكترونيات:
- مدينة الملك عبد العزيز للعلوم والتقنية 90 - برنامج بحوث معالجة اللغات الطبيعية. الصوتيات .... ..

17

18

19 شركة كولتك COLTEC 90 م ARWOC)Arabic Word Corrector)
أَهَمّ الخصائص والإمكانات: - مبني على تقنية NLP كولتك - يصحح جميع الأنواع من الأخطاء المختلفة - يكتشف ويصحح المسافات الزائدة والناقصة - يصحح الأخطاء المتكررة آليا - يمكن دمجه مع البرامج المختلفة

20 المراجع q مركز الملك فيصل للبحوث والدراسات الإسلامية

21 محمد صالح بامجبور فهد عبد العزيز الصوينع


Download ppt "أهمية معالجة النصوص العربية باستخدام الحاسب"

Similar presentations


Ads by Google