[ إشراف الدكتور / عبدالملك السلمان ]

Slides:



Advertisements
Similar presentations
L9,CSE 101: © Zag. Univ.Dr.Basheer M. Nasef بسم الله الرحمن الرحيم.
Advertisements

Conjunctions الروابـــــــــط.
An Introduction to the Arabic Language Alphabets A Beginners Guide.
علامات الشكل في المستند الالكتروني العربي
Question-Tags الأسئلة المذيلة
نظام حاسوبي لتشكيل النص العربي(المشكل الآلي) ICS484 الحوسبة العربية صقر العريفي فريق: ابداع.
تعريب لوحة المفاتيح والشاشة
منصور البصيلي خالد الزهراني
تعريب الحاسب - حسني المحتسب
التعرف الآلي على الكلام العربي المنطوق
محرر قواعد التحليل الصرفي المصدري تصميم و تنفيذ : يوسف بن عبد الرحمن السحيباني هاشم بن علي الشبعان.
التعرف الآلي على الكلام العربي
Introduction to Software
كيفية عرض المكونات Hit Counter: يجب تخزينها ونشرها على موقع الويب (الخادم) Hover Button: يجب تخزينها وعرضها من الأمر Preview on Browser من قائمة File.
مقارنة بين برنامجي IRIS وصخر للقراءة الآلية العربية
خرائط التدفق Flowchart.
التعرف الآلي على الكلام المنطوق العربي
بسم الله الرحمن الرحيم.
القــارئ الآلــي للـــغة الــــــــعربية
محركات البحث العربية بواسطة: عبد الله عتيق العامر
محرك البحث الإدريسي غزوان البريكان
EMSA EXTERNAL MEASUREMENT of STUDENT ACHIEVEMENT.
بروتوكول الانترنت نظم تشغيل 1.
بعض نظم الأرشفة الإلكترونية تقديم د. جبريل العريشي A microfiche reader.
Workshop on Demographic Analysis and Evaluation. Mortality: Assessing Completeness of Reporting الوفيات: تقييم مدى اكتمال الإبلاغ.
© 2005 by Prentice Hall Identifying and Selecting Systems Development Projects Modern Systems Analysis and Design Fourth Edition Jeffrey A. Hoffer Joey.
Creating Scenes A scene in flash contains one or more layers that show related objects, in the stage, that act and interact to deliver a certain idea.
الأحرف Nada Shaath This lesson was developed by using funds from QFI (Qatar Foundation International)
Review: Program Memory Addresses Program addresses are fixed at the time the source file is compiled and linked يتم إصلاحها عناوين البرنامج في الوقت يتم.
تقسيم الشبكات Subnetting
Alphabet game…. Think of a word – Your partner has to guess that word – you can give ONE word clues – no YES/NO responses allowed!!
مقدمة قواعد بيانات - أوراكل الفـصـل الــرابــع دوال الصف الواحد أ. جمانه الحازمي.
دبلوم الإرشاد الأسري. phrasal verb  The term phrasal verb is commonly applied to two or three distinct but related constructions in English: a verb and.
Activity Diagram.
لنفرض أن هدف التجربة هو مقارنة نوعين من الأعلاف (A و B) لتغذية أبقار حلوب خلال 3 شهور. وتم اختيار عشرين بقرة متشابهة ( في الوزن / العمر / السلالة / الموسم.
لنفرض أن هدف التجربة هو مقارنة صنفين من السماد (A و B) من حيث كمية محصول نوع معين من القمح.
عمليات قائمة Insertion
SPSS تطبيقات إحصائية بـاستخدام د. وليــد محمد عفيفي محمد
Law Of Diminishing Marginal Utility قانون تناقص المنفعة الحدية
10 0× 1 = 4× 4 = (وحدات)4 10 1× = 5 50 = (عشرات)5
برمجة قواعد بيانات تطبيق مفهوم الحماية في النماذج
القياسات الحيوية القياس الحيوي المبني على بصمة )Palmprint( الكف مقدم من قبل:بتول الحواني Lecture by Batoul Al-Hourani and Dr. Ahmad B. A. Hassanat, Information.
تابع :تطبيع البيانات.
بناء صفحات الإنترنت برنامج FrontPage
بسم الله الرحمن الرحيم Lecture( 4)
1.الدوال Function 2.الاجراءاتSub Procedure 3.وحده نمطيه Add Module
المخدم الرئيسي في الشبكات
الوحدة الثالثة الاتصالات و شبكات الحاسوب
إختر عنواناً لمشروعك يكون بسيطاً ويشد الانتباه!.
السريان في القنوات المفتوحة والمغلقة
نظام التشغيل Windows xp.
سياسات واستراتيجيات البحث
الفصل الثالث حصر و ترتيب البيانات.
تدريب (3-1)- مكونات سطح المكتب لنظام التشغيل (Windows XP).
Programming -2 برمجة -2 المحاضرة-1 Lecture-1.
Electronic Payment Systems أنظمة الدفع الالكتروني
Windows Security Center
أ.إسراء الطريقي , 306 عال , المحاضره الثالثه
3. Browsing the Web تصفح الانترنت
C++ Programming L11 . Classes(3) kkkkkkkkkkkkkk
التعرف على الخط العربي المكتوب يدوياً
2-3 منحنى (الموقع – الزمن)
شرح برنامج صانع الافلام Movie Maker (الموفي ميكر)
Gateway (بوابة العبور أو الاتصال)
User ID Symbol Description Site Engineer SE Office Engineer OE N/A SF
استعمال الدوال الجاهزة
الكلية الجامعية للعلوم التطبيقية
الوحدة الثالثة : مقاييس التشتت
هيكلة نظم إدارة قواعد البيانات (DBMS Architecture)
مجلس أبوظبي للتعليم منطقة العين التعليمية مدرسة المعالي النموذجية القانون الأول للديناميكا الحرارية 1 Objective 5-4(A) -1 حفظ الطاقة : conservation of.
Presentation transcript:

[ إشراف الدكتور / عبدالملك السلمان ] جامعة الملك سعود كلية علوم الحاسب والمعلومات قسم علوم الحاسب تعريب الحاسبات – 428 عال مشروع بحث: قارئ الأحرف المرئية ( ق.أ.م ) المطبوعة والمكتوبة بخط اليد – دراسة مبدئية [ إشراف الدكتور / عبدالملك السلمان ] تم إعداده من قبل أحمد سعيد آل خلبان ثامر مستور العنزي مسفر محمد القحطاني

مقدمــــة نظام قارئ الأحرف المرئية يعتبر ذو أهمية بالغة في الوقت الحالي لما يتميز بة من سهولة في الإستخدام والوقت الذي يوفرة في إدخال البيانات. ينقسم النظام الى قسمان وهما : (On-line)1- النظام المباشر )Off-line) 2- النظام الغير مباشر النظام المباشر يقوم بالتعرف على الحروف التي تم كتابتها كأشكال رسومية يتم إدخالها بواسطة الألواح الرقمية . النظام الغير مباشر يقوم بالتعرف على الحروف عن طريق المسح الضوئي للنص المكتوب مسبقاً.

ظاهرة مهمة في الكتابة العربية (المقطع) المقطع هو الجزء الرئيسي الذي تتكون منه الكلمة العربية، ويُستخدمه نظام التعرف الضوئي على الحروف كوسيلة للتعرف على النص العربي. المقطع ينقسم إلى أربعة أقسام رئيسية تبعاً لما يسبق ويلي المقطع في الكلمة العربية وهي على الشكل التالي : المقطع الذي تسبقه مسافة وتليه مسافة أيضا، مثال كلمة ( قلم ) تسبقه مسافة وتلي مسافة. المقطع الذي يسبقه فراغ ويليه فراغ أيضا، مثال كلمة ( رجال)، فالمقطع (جا) يسبقه فراغ ويليه فراغ. المقطع الذي يسبقه فراغ وتليه مسافة، مثال كلمة (الولد)، فالمقطع ( لد ) يسبقه فراغ وتليه مسافة. المقطع الذي تسبقه مسافة ويليه فراغ، مثال كلمة (مرجع)، فالمقطع (مر) يسبقة مسافة ويلية فراغ.

عينة اختبار ونتائجها من أجل أن نعطي فكرة منصفة عن المقاطع، ولقد أختيرت هذة النصوص عشوائياً فبعد أن تم تحليل هذا النموذج خرجنا بإحصائية عن هذه العينة، ربما تعطي فكرة عن تركيب الكلمات العربية وفق المقاطع والأشكال الأربعة للحروف، ويبين [ الجدول 2 ] تحليل هذه العينة.

[ الجدول 2 ]

نظام جديد للتعرف على الحروف العربية يبين [ الشكل 1 ] رسم التوضيحي الخاص بهذا الإجراء و يوضح عملية التعرف على الحرف والخطوات التي يمر بها ابتداءًَ من النص والخطوات كالتالي: تقسيم النص إلى كلمات. تقسيم الكلمات إلى مقاطع. تحديد عدد الحروف في المقطع وبناءً علية يتم تحديد مساره بين ثلاثة مسارات: المقطع المحتوي على حرف واحد يتم التعرف عليه دون الحاجة إلى التقسيم. المقطع المحتوي على حرفين يتم التعرف عليه بعد تقسيم المقطع. المقطع المحتوى على أكثر من ثلاثة حروف يتم تقسيمه إلى عدة حروف.

[ الشكل 1 ]

الفصل الثالث مشاريع لقارئ الأحرف المرئية (ق.أ.م) المشروع التمهيدي لـ ( ق.أ.م ) للنصوص المطبوعة. مشروع ( ق.أ.م ) مباشر . مشروع المطابقة التقريبية لسلسلة الأرقام الاتجاهية (كود السلسلة). مشروع التعرف باستخدام شبكة عصبية . مشروع أداة التعرف على الحرف العربي.

أولاً : المشروع التمهيدي لـ ( ق.أ.م ) للنصوص المطبوعة في هذا المشروع تم تلخيص مشكلة التعرف على الحروف العربية، ولكن ما أعاب البحث كونة مقتصراً على الأحرف المطبوعة وليست المكتوبة . وهذا المشروع يمر بعدة مراحل :- مرحلة ما قبل المعالجة: التحويل إلى ثنائي الترفيع: مرحلة المعالجة التقسيم: إستخراج الصفات التصنيف والتعرف

1- مرحلة ما قبل المعالجة وتحتوي على العمليات التالية : التحويل إلى ثنائي: سوف يرجع صورة ثنائية من صفر و واحد (أبيض، وأسود)، كبداية يمكن أن تستخدم بالاعتماد على لون النص والخلفية. الترفيع: هنا أستخدم خوارزمية روزنفيلد Rosenfeld’s algorithm.

2- مرحلة المعالجة وتمر هذة المرحلة بالعمليات التالية : التقســــيم : يتم التقسيم من خلال أخذ المسقط الأفقي للكلمة أو للمقطع، إن تحديد نقطة التقسيم تتم من خلال مسح من اليمين إلى اليسار للمسقط الأفقي ومن ثم إيجاد تغير في القيمة من 1 إلى أي قيمة أعلى، بهذا نحدد نقطة التقسيم، نقطة التقسيم تحدد من خلال نقطة الاتصال في صورة المقطع مثلما يظهر في [ الشكل 2]، وهذه الطريقة الرياضية تفشل عند استخدام المسقط العمودي، بعد إكمال عملية التقسيم تمر الحروف المقسمة إلى مرحلة استخراج المميزات ومرحلة التعرف.

[ الشكل 2]

2. إستخراج الصفات : هناك مجموعة من الصفات التي يتم إستخراجها منها: عدد نقاط النهاية، عدد الحلقات، و كود السلسلة والتي تعتبر الصفة الأكثر أهمية ويمكن إستخراجها بسهولةكما يظهر في [ الشكل 3[

[[ الشكل 3

.3التصنيف والتعرف: تتم عملية التصنيف على الحروف بحيث تصنف في فئات، ولتصنيف حرف غير معروف يجب أن تحدد الفئة التي ينتمي لها هذا الحرف، يعتبر المصنف أن نقطة التقسيم الفاصلة للحرف غير صحيحة، لذلك يزيل تلك النقطة ويتبنى النقطعة التالية بإعتبارها نقطة التقسيم الفاصلة مثلما يظهر في [ الشكل 4 ]،يعني أن تقسيم المقطع إلى أجزاء صغيرة يمكن أن تكون أصغر من الحرف مثل خطوط نقاط التقاطع، نقاط التغير، الحلقات.

[ الشكل 4 ]

ثالثاً : مشروع التعرف باستخدام شبكة عصبية يختلف عن المشروعات الأخرى التي استخدمت مناهج تقليدية، هذا المشروع استخدم مفاهيم الذكاء الاصطناعي باستخدام الشبكات العصبية. المدخلات في الشبكة العصبية هي السمات المتعرف عليها أو المستخرجة هذا يزيد من قوة الشبكة

قائمة بالسمات التي تستخدم كمدخلات في الشبكات العصبية: مركز الثقل مسقط عمودي البعد تحت الخط القاعدي نسبة المظهر تقاطع للخط المركز الأفقي تقاطع للخط العمودي المركزي سمات النقاط سمة نقاط النهاية موضع نقاط النهاية

الحلـــقة الحلقة موجودة في بعض الحروف، وعملية اكتشاف الحلقة تتم بخطوتين : الخطوة الأولى: مسح الصورة الكلية من خلال خوارزمية معينة . الخطوة الثانية: بعد الانهاء من الخطوة الأولى والحصول على الصورة التي تم مسحها والحصول أيضاً على البكسلات ومحدداتها (شمال، جنوب، شرق، غرب) .

الحلقة المغلقة الحلقة المغلقة تعني الحلقة التي ليس بها مساحة بيضاء في وسطها. وربما يواجه ذلك من خلال العديد من الحروف.

تبسيط السمات تتم هذة العملية بجعل السمة تأخذ القيم (1- ، 1) يتم كما يلي : وعندما لا تكون السمة موجودة تكون القيمة -1 مستخدمة عندما تكون موجودة تكون القيمة المستخدمة 1. بقية السمات تأخذ القيم التالية كما يلي: القيمة المبسطة = القيمة الأصلية/ أكبر قيمة للسمة يمكن أن يكون لها عرض يفوق قيمة الطول المستخدمة دون القيمة المبسطة.

تصميم الشبكة العصبية إن الشبكة العصبية تتكون من 3 طبقات: طبقة الإدخال. الطبقة المخفية. طبقة الإخراج.

مشروع اداة التعرف على الحرف العربي يهدف هذا المشروع إلى تمثيل قدرات القراءة البشرية لكل من النص المطبوع بالآلة والمكتوبة بخط اليد . التعرف البصري على الحرف له تطبيقات عديدة منها المساعدة في القراءة لذوي الاحتياجات الخاصة . أنظمة التعرف على الحرف العربي تسير ببطء مقارنة بنظيراتها من اللغات الصينية واللاتينية .

البيانـات كتب نص عربي ليشمل كل الحروف العربية بأشكالها المختلفة في المواقع المختلفة من المقطع سواء كان شكل الحرف مستقل أو شكله في وضع الابتداء أو التوسط أو الانتهاء كما هو موضح في الشكل التالي .

عينة نصية مفترض كتابتها بواسطة 52 شخص

البيانـات النص السابق أعطي لـ 52 شخصا مختلفا لكتابته بخط اليد وبعد ذلك تم إدخاله بالماسح الضوئي واختير منها 48 شكلا لتكون الأشكال القياسية المستخدمة في المعالجة . تم نسخ الحروف المختلفة من الأشكال المختلفة إلى مجموعة من الملفات , كل ملف يحتوي على نفس الحرف بـ 48 شكل كما هو مبين في الشكل التالي .

جدول يحتوي على 48 عينة لحرف العين مكتوبة بخط اليد

البيانـات وقد تم تطوير مجموعة ملفات للأشكال المختلفة للحروف وهذه الأشكال تتكون من حروف منفردة بالنقاط وبدون النقاط , وهذه الحروف تكون واحدة من الأشكال الأربعة( الشكل المستقل – وضع الابتداء – وضع التوسط – وضع الانتهاء ) . كما أنه تم تصنيف النقاط فالنقاط العلوية المفردة والثنائية والثلاثية وأيضاً السفلية المفردة والثنائية قد جمعت في ملفات منفصلة سواء كانت نقطة بكتابة أشخاص مختلفين أو نقاط مختلفة بكتابة شخص واحد، أما الأرقام والرموز المختلفة فقد جمعت في ملفات منفصلة.

شـجرة المـجلـدات Project---data |-----dots for single (هذا المجلد يحتوي على نقاط أخذت من شخص معين لعدة حروف) | | | |-------lower – onedot | |-------lower – twodot | |-------upper – onedot | |-------upper – twodot | |-------upper – threedot | |---- dots for multipersons ((الملف يحتوي على نقطة واحدة أخذت من عدة أشخاص | | | |-------lower – onedot | |-------lower – twodot | |-------upper – onedot | |-------upper – twodot | |-------upper – threedot

شـجرة المـجلـدات |-------letterscon (الحروف المتصلة) | | | |-----begin | | | |-----begin | | |-----With_dots (تحتوي على نقاط) | | |-----No_dots (لا تحتوي على نقاط) | | | |-----midle | | |-----With_dots (تحتوي على نقاط) | | |-----No_dots (لا تحتوي على نقاط) | |-----last | |-----With_dots (تحتوي على نقاط) | |-----No_dots (لا تحتوي على نقاط) |

شـجرة المـجلـدات |-------lettersdiscrete الحروف الغير المتصلة ) ) | |----lettersdot حروف تحتوي على نقاط ) ) | |----letters ( حروف لا تحتوي على نقاط) | |-------Numbers |-------Two (حرفين في مقطع) |-------Three (ثلاثة حروف في مقطع) |-------Al-hamzeh |-------Signs

محتويات المجلدات كل مجلد يحتوي على الحروف سواء كانت متصلة أو مستقلة موزعة إلى عدة مجلدات وفقا لموقعها في الكلمة . كل ملف يحتوي على 48 حرف من نفس الكلمة والموقع إما أن يكون في ( وضع الابتداء , وضع التوسط , وضع الانتهاء) من أشخاص مختلفين . تدل الارقام على التالي : 1- الحرف في بداية الكلمة 2- الحرف في وسط الكلمة 3- الحرف في نهاية الكلمة

محتويات المجلدات Data--------------lettercon |---last |--- middle |--- begin |------------------------------------ No_dots  نفس الملفات بدون نقاط على الحرف |--- With_dots |--ain1 عـ |--ain عـ |--B1 بـ |--b11 بـ |--dad1 ﺿ |--f1 فـ |--Gaf1 قـ |--H1 هـ

محتويات المجلدات |--Gin1 غـ |--Hh1 حـ |--Je جـ |--k1 كـ |--kh1 خـ |--L1 لـ |--La1 لـ |--M1 مـ |--N1 نـ |--S1 سـ |--S12 سـ |--S13 سـ |--Sh1 شـ

محتويات المجلدات |--Ss1 صـ |--Ss12 صـ |--T1 تـ |--Tha12 ثـ |--thad1 ظ |--Ya1 ي

محتويات المجلدات Data--------------lettercon |--- middle |--- begin |--- last |------------------------------------------- No_dots |--- With_dots |--A3 ـا |--A32 ـا |--A33 ـا | --Ain3 ـع |--ain32 ـع

محتويات المجلدات |--B3 ـب |--D3 ـد |--D32 ـد |--D33 ـد |--dad3 ـض |--f3 ـف |--Gaf3 ـق |--H3 ـه |--H32 ـه |--H33 ـه |--Gin3 ـغ |--Hh3 ـح |--Je3 ـج

محتويات المجلدات |--kh3 ـخ |--L3 ـل |--M3 ـم |--N3 ـن |--R3 ـر |--S3 ـس |--Sh3 ـش |--Ss3 ـص |--T3 ـت |--Th3 ـذ |--Th33 ـذ |--Tha3 ـث |--Tt3 ط |--Wow3 ـو |--Z3 ـز |--Ya3 ـي

محتويات المجلدات Data--------------lettercon |--- last |---begin |--- middle |------------------------------------------- No_dots |--- With_dots |--ain2 ـعـ |--B2 ـﺒـ |--dad2 ـﻀـ |--f2 ـﻔـ |--Gaf2 ـﻘـ |--Gin2 ـﻐـ |--H2 ـﻬـ |--Hh2 ـﺤـ

محتويات المجلدات |--Je2 ـﺠـ |--k2 ـﻜـ |--kh2 ـﺨـ |--L2 ـﻠـ |--M2 ـﻤـ |--N2 ـﻨـ |--S2 ـﺴـ |--Sh2 ـﺸـ |--Ss2 ـﺼـ |--T2 ـﺘـ |--T22 ـﺘـ |--Tha2 ـﺜـ |--Thd2 ـﻈـ |--Tt2 ط |--Ya2 ـﻴـ

المطابقة التقريبية لسلسلة الأرقام الاتجاهية ماهي الأرقام الاتجاهية؟ مقارنة حرفين، باستخدام صورتين لحرفين باستخدام سلسلة الأرقام الاتجاهية

مثال توضيحي لسلسلة الأرقام الاتجاهية ( أ ) 2 1 0 7 6 5 5 0 0 2 (ب) 1 0 7 6 5 5 4 0 7 6 5 4 3 (جـ) 4 2 0 7 6 5 4 0 6 5 4 2

تفاصيل الخوارزمية البعد di,j القيمة T(i,j) ، تمثل أقل قيمة بين if | a1(i) – a2(j) | ≤ 4, di,j = | a1(i) – a2(j) | else di,j = 8 – | a1(i) – a2(j) | القيمة T(i,j) ، تمثل أقل قيمة بين T(i-1 , j-1)+di,j T(i-1, j)+c when ti is missing T(i, j-1)+c when lj is missing

كيفية حساب الجدول المطابقة بين الحرف الغير معروف وحرف الحاء

كيفية حساب T(i,j) T(i, j-1) T(i-1 , j-1) T( i , j ) T(i-1, j)

T(i-1 , j-1)+di,j || T(i-1, j)+c || T(i, j-1)+c كيفية حساب الجدول المطابقة بين الحرف الغير معروف وحرف الحاء T(i-1 , j-1)+di,j || T(i-1, j)+c || T(i, j-1)+c

T(i-1 , j-1)+di,j || T(i-1, j)+c || T(i, j-1)+c كيفية حساب الجدول المطابقة بين الحرف الغير معروف وحرف الحاء T(i-1 , j-1)+di,j || T(i-1, j)+c || T(i, j-1)+c

T(i-1 , j-1)+di,j || T(i-1, j)+c || T(i, j-1)+c كيفية حساب الجدول المطابقة بين الحرف الغير معروف وحرف الحاء T(i-1 , j-1)+di,j || T(i-1, j)+c || T(i, j-1)+c

كيفية حساب الجدول T(i-1 , j-1)+di,j || T(i-1, j)+c || T(i, j-1)+c المطابقة بين الحرف الغير معروف وحرف العين T(i-1 , j-1)+di,j || T(i-1, j)+c || T(i, j-1)+c

نـــــتـــــائـــــج التعرف على الحروف بشكلها المستقل نسبة 80% لحروف، مثل ( ه ، ص ، ا ) نسبة منخفضة للحروف المتشابهة، مثل ( ب – ف ) أو ( ن – ق )

تابع – النـــــتـــــائـــــج متوسط طول الكلمة = 4.3 أحرف متوسط طول الطلمة = 2.2 مقطع فيما يتعلق بمعالجة المقاطع، تم التفنيد إلى ثلاثة أقسام مقطع مكون من حرف واحد مقطع مكون من حرفين مقطع مكون من أكثر من حرفين

تقييم ( ق.أ.م ) العربي الخاص بشركة صخر

تابع – تقييم ( ق.أ.م ) العربي الخاص بشركة صخر

ق.أ.م Readiris المستخدم مع ماسحات HP من أفضل برامج التعرف على الحروف عند عملية مسحها بالماسح الرقمي. يماثل برنامج ( ق.أ.م ) الخاص صخر إضافة إلى مزايا أكثر وسهولة في التعامل. يدعم جميع نظم التشغيل (ويندوز). اللغات التي يدعمها هذا البرنامج! تطرح إصدارات جديد من برنامج Readiris كمتابعة لسلسلة الإصدارات الناجحة. القدرة على تحويل ملفات الـ *.PDF إلى ملفات نص وورد. مشاكل وعيوب Readiris