Presentation is loading. Please wait.

Presentation is loading. Please wait.

Shani Vered Oz Adi Advisor : Prof. Michael Elhadad

Similar presentations


Presentation on theme: "Shani Vered Oz Adi Advisor : Prof. Michael Elhadad"— Presentation transcript:

1 Shani Vered Oz Adi Advisor : Prof. Michael Elhadad
OCR With Nikud Shani Vered Oz Adi Advisor : Prof. Michael Elhadad

2 Motivation Create a free tool that converts a text without nikud to one with it. Will help to preserve the language. (nikud usage is decreasing) NLP hebrew research - create hebrew corpus with nikud

3 Already Exist : Tesseract - Open Source, OCR for hebrew
Without Nikud (relatively good result) Still we have mistakes. It really depends on the font we do OCR אם תרדבה בליל דמﬠותיר שמחתי לך אבﬠיר כצרור תבןִ אם תרחפבה מקור ﬠצמותייר, אכסר ואשכב ﬠך' אבן.

4 תוֹלדוֹת הלבוּשׁ מצביﬠוֹת צל כך, שבמשך הדוֹרוֹת השכיל
With Nikud הכווּן - בגדים נוֹחים תוֹלדוֹת הלבוּשׁ מצביﬠוֹת צל כך, שבמשך הדוֹרוֹת השכיל האדם להשתחרר מאָפנוֹת כיבוּש שלא היוּ יפוֹת לבריאוּת. We can see that the result is pretty good, but most of the nikud is not recognized

5 Results are not satisfying.
Trying to use other OCR tools that exist on the web like: Hocr, Qhocr etc... Results are not satisfying. More nikud features are recognized - but lots of mistakes, a lot of times the text is linked and without correct spaces הָעלוּ בִּמַשִׁאֵבָה שֵׁהְפִעלָה עַל יִדֵי בִּהֵמָה (.ֹבִסוֹבִבָה בִּמַעִגָל. בָּאָרְץהִשִׁתַמִשׁוּהַמִתִיַשִׁבִיםהַיִהוּדִיםהָרִאשׁוֹנִים,מֵרְאשִׁית הַיִשׁוּב,בִּבִאֵרוֹתמוּנָעוֹתבִּדְלְקאוֹבִּחַשִׁמַל,הַסוֹבֵבבִּפַרִדִסֵי הַשָׁרוֹןיִתָקֵלעַלכָּלצַעַדוִשַׁעַלבִּמִבִנְיבֵּטוֹןשְׁעַלגַגָם

6 How To Improve We want to train the tesseract so it will recognize the Britannica Hebrew letters and nikud. The way is to create an improved train data file for tesseract. We used a useful tool called Moshpytt Bounding box - only letter and nikud vs. letter + nikud in the same bounding box

7

8 Data Set Distribution + Box Files Example
Letter Hits א 1201 י 153 ע 242 ב 755 כ 1785 פ 520 ג 1333 ך 60 ף 31 ד 212 ל 333 צ 356 ה 469 מ 1020 ץ 48 ו 163 ם 651 ק 192 ז 1720 נ 881 ר 370 ח 108 ן 168 ש 1055 ט 402 ס 522 ת 808

9 Data Set Distribution - with nikud
א אְ אֱ אֳ אִ אֵ אֶ אַ אָ אׂ אׁ אֹ אּ אֻ 2 11 46 45 155 94 105 75 - 4 מ מְ מֱ מֲ מֳ מִ מֵ מֶ מַ מָ מׂ מׁ מּ מֻ 191 230 103 64 115 82 18 ע עְ עֱ עֲ עֳ עִ עֵ עֶ עַ עָ עׂ עׁ עּ עֻ 6 3 98 88 21 7 137 1 פ פְ פֱ פֲ פֳ פִ פֵ פֶ פַ פָ פׂ פׁ פּ פֻ 77 23 68 14 5 ש שְ שֱ שֲ שֳ שִ שֵ שֶ שַ שָ שׂ שׁ שּ שֻ 133 69 37 243 81 139 ת תְ תֱ תֲ תֳ תִ תֵ תֶ תַ תָ תׂ תׁ תּ תֻ 136 70 9 100 10 Top letters - a good table to understand how to improve

10 Project Results Confusion Matrix Top 10 Errors :
Words ending with letter ד - lots of times we have Hirik - דִ mistakes between שֶ and שֻ כַּז-וּר , כֵרוּר instead of כַּדוּר הֶ instead of הֻ and הָ הֵ instead of הְ יָ instead of יֶ בֶ instead of בָ letter ק needs better training ךְ - doesn't exist in corpus holam haser - is missing in the corpus for some letters תְ instead of חְ סַ instead of סֵ גַ' becomes נַ Confusion Matrix

11 Project Results - Cont. Overall Accuracy : 90% ! Precision Recall
Plain Letters 95% 93% Letters With Nikud 82.4% 80.5% Only Nikud 87.9% 87% Explain about Precision and Recall

12 Tesseract after trained by us
Image : לָפוּמְבְּדִיתָא, שֶׁהָיְתָה מֶרְכָּז יְהוּדִי חָשׁוּב מִיָמָיו שֶׁל הַתַנָא מַר שְׁמוּאֵל, בַּר-הַפְּלֶגְתָא שֻׁל רַבִּי יְהוּדָה הַנָשִׂיא עוֹרֵךְ הַמִשְׁנָה. מַר שְׁמוּאֵל הָיָה נֶאֱמָן לַפַּרְסִים וּפָסַק כִּי בְּעִנְיָנִים אֶזְרָחִיִים מְחַיְבִים חֻקֵי הַמְדִינָה שֶׁבָּהּ יוֹשְׁבִים הַיְהוּדִים מֵמָשׁ כְּאִלוּ הָיוּ חֻקֵי הַתוֹרָה. הוּא קָבַע אֶת הַכְּלָל: "דִינָא דְמַלְכוּתָא - דִינָא". בִּתְקוּפָה זוֹ, לְאַחַר חֲתִימַת הַמִשְׁנָה עַל ידֵי יְהוּדָה הַנָשְׂיא, פָּעֲלוּ בִּישִׁיבוֹת בָּבֶל הָאָמוֹרָאִים חַכְמֵי הַתַלְמוּדִ. Text :

13 Questions ? http://www.cs.bgu.ac.il/~nlpproj possible question s :
1. tesseract model 2.how to improve current results 3.


Download ppt "Shani Vered Oz Adi Advisor : Prof. Michael Elhadad"

Similar presentations


Ads by Google