Shani Vered Oz Adi Advisor : Prof. Michael Elhadad OCR With Nikud Shani Vered Oz Adi Advisor : Prof. Michael Elhadad
Motivation Create a free tool that converts a text without nikud to one with it. Will help to preserve the language. (nikud usage is decreasing) NLP hebrew research - create hebrew corpus with nikud
Already Exist : Tesseract - Open Source, OCR for hebrew Without Nikud (relatively good result) Still we have mistakes. It really depends on the font we do OCR אם תרדבה בליל דמﬠותיר שמחתי לך אבﬠיר כצרור תבןִ אם תרחפבה מקור ﬠצמותייר, אכסר ואשכב ﬠך' אבן.
תוֹלדוֹת הלבוּשׁ מצביﬠוֹת צל כך, שבמשך הדוֹרוֹת השכיל With Nikud הכווּן - בגדים נוֹחים תוֹלדוֹת הלבוּשׁ מצביﬠוֹת צל כך, שבמשך הדוֹרוֹת השכיל האדם להשתחרר מאָפנוֹת כיבוּש שלא היוּ יפוֹת לבריאוּת. We can see that the result is pretty good, but most of the nikud is not recognized
Results are not satisfying. Trying to use other OCR tools that exist on the web like: Hocr, Qhocr etc... Results are not satisfying. More nikud features are recognized - but lots of mistakes, a lot of times the text is linked and without correct spaces הָעלוּ בִּמַשִׁאֵבָה שֵׁהְפִעלָה עַל יִדֵי בִּהֵמָה (.ֹבִסוֹבִבָה בִּמַעִגָל. בָּאָרְץהִשִׁתַמִשׁוּהַמִתִיַשִׁבִיםהַיִהוּדִיםהָרִאשׁוֹנִים,מֵרְאשִׁית הַיִשׁוּב,בִּבִאֵרוֹתמוּנָעוֹתבִּדְלְקאוֹבִּחַשִׁמַל,הַסוֹבֵבבִּפַרִדִסֵי הַשָׁרוֹןיִתָקֵלעַלכָּלצַעַדוִשַׁעַלבִּמִבִנְיבֵּטוֹןשְׁעַלגַגָם
How To Improve We want to train the tesseract so it will recognize the Britannica Hebrew letters and nikud. The way is to create an improved train data file for tesseract. We used a useful tool called Moshpytt Bounding box - only letter and nikud vs. letter + nikud in the same bounding box
Data Set Distribution + Box Files Example Letter Hits א 1201 י 153 ע 242 ב 755 כ 1785 פ 520 ג 1333 ך 60 ף 31 ד 212 ל 333 צ 356 ה 469 מ 1020 ץ 48 ו 163 ם 651 ק 192 ז 1720 נ 881 ר 370 ח 108 ן 168 ש 1055 ט 402 ס 522 ת 808
Data Set Distribution - with nikud א אְ אֱ אֳ אִ אֵ אֶ אַ אָ אׂ אׁ אֹ אּ אֻ 2 11 46 45 155 94 105 75 - 4 מ מְ מֱ מֲ מֳ מִ מֵ מֶ מַ מָ מׂ מׁ מּ מֻ 191 230 103 64 115 82 18 ע עְ עֱ עֲ עֳ עִ עֵ עֶ עַ עָ עׂ עׁ עּ עֻ 6 3 98 88 21 7 137 1 פ פְ פֱ פֲ פֳ פִ פֵ פֶ פַ פָ פׂ פׁ פּ פֻ 77 23 68 14 5 ש שְ שֱ שֲ שֳ שִ שֵ שֶ שַ שָ שׂ שׁ שּ שֻ 133 69 37 243 81 139 ת תְ תֱ תֲ תֳ תִ תֵ תֶ תַ תָ תׂ תׁ תּ תֻ 136 70 9 100 10 Top letters - a good table to understand how to improve
Project Results Confusion Matrix Top 10 Errors : Words ending with letter ד - lots of times we have Hirik - דִ mistakes between שֶ and שֻ כַּז-וּר , כֵרוּר instead of כַּדוּר הֶ instead of הֻ and הָ הֵ instead of הְ יָ instead of יֶ בֶ instead of בָ letter ק needs better training ךְ - doesn't exist in corpus holam haser - is missing in the corpus for some letters תְ instead of חְ סַ instead of סֵ גַ' becomes נַ Confusion Matrix
Project Results - Cont. Overall Accuracy : 90% ! Precision Recall Plain Letters 95% 93% Letters With Nikud 82.4% 80.5% Only Nikud 87.9% 87% Explain about Precision and Recall
Tesseract after trained by us Image : לָפוּמְבְּדִיתָא, שֶׁהָיְתָה מֶרְכָּז יְהוּדִי חָשׁוּב מִיָמָיו שֶׁל הַתַנָא מַר שְׁמוּאֵל, בַּר-הַפְּלֶגְתָא שֻׁל רַבִּי יְהוּדָה הַנָשִׂיא עוֹרֵךְ הַמִשְׁנָה. מַר שְׁמוּאֵל הָיָה נֶאֱמָן לַפַּרְסִים וּפָסַק כִּי בְּעִנְיָנִים אֶזְרָחִיִים מְחַיְבִים חֻקֵי הַמְדִינָה שֶׁבָּהּ יוֹשְׁבִים הַיְהוּדִים מֵמָשׁ כְּאִלוּ הָיוּ חֻקֵי הַתוֹרָה. הוּא קָבַע אֶת הַכְּלָל: "דִינָא דְמַלְכוּתָא - דִינָא". בִּתְקוּפָה זוֹ, לְאַחַר חֲתִימַת הַמִשְׁנָה עַל ידֵי יְהוּדָה הַנָשְׂיא, פָּעֲלוּ בִּישִׁיבוֹת בָּבֶל הָאָמוֹרָאִים חַכְמֵי הַתַלְמוּדִ. Text :
Questions ? http://www.cs.bgu.ac.il/~nlpproj possible question s : 1. tesseract model 2.how to improve current results 3. http://www.cs.bgu.ac.il/~nlpproj