Optical Character Recognition ili OCR Mr.sc. Nikolina Stanić Loknar Grafički fakultet Zagreb
Optical Character Recognition ili OCR je tehnologija koja omogućuje konvertiranje, prevođenje različitih tipova slikovnih dokumenata u formate kojima može manipulirati računalo (to su npr. ASCII ili UNICODE kodovi)
Skenirane slike, PDF dokumente ili slike ubačene u računalo pomoću digitalne kamere OCR tehnologija prepoznaje i prebacuje u formate koji mogu biti prerađivani ili dorađivani u programima za obradu teksta kao npr. Microsoft Word OCR sustav se sastoji od optičkog skenera za čitanje teksta i sofisticiranog softvera za analiziranje slika
Većina OCR sustava koristi kombinaciju hardvera i softvera koja prepoznaje slovne znakove Napredni OCR sustavi mogu čitati tekstove pisane velikim brojem fontova, pa i rukopisne fontove
Postoje dvije osnovne metode koje se koriste za OCR: uspoređivanje matrica (eng. Matrix matching) i Pronalaženje ključnih obilježja (eng. Feature extraction)
Jednostavnija i učestalija metoda je Matrix matching Matrix matching metoda uspoređuje što skener vidi kao slovni znak sa popisom slovnih matrica ili predložaka Kada skenirana slika odgovara jednoj od zadanih matrica unutar postavljenog stupnja sličnosti računalo joj dodjeljuje kôd jednog od ASCII znakova.
Pronalaženje ključnih obilježja je OCR sustav bez točnog podudaranja s zadanim predloškom - Inteligentno prepoznavanje znakova Ta metoda ovisi o “računalnoj inteligenciji” postavljenoj od strane proizvođača Računalo traži osnovne oblike kao što su: otvorene površine, zatvoreni oblici, dijagonalne linije itd
Uspoređivanje matrica najbolje funkcionira kada se radi s manjim brojem različitih pismovnih rezova i s malim razlikama unutar jednog reza Kada postoje veće razlike u izgledu slova metoda Inteligentnog prepoznavanja znakova je prikladnija
OCR fontovi su oni koje može raspoznati i pročitati ljudsko oko i uređaj za čitanje OCR fontova Sadrže slovne znakove od A do Z, brojeve i nekoliko posebnih znakova Svaki znak u fontu ima definiranu veličinu i oblik u kojem se pojavljuje OCR fontovi su definirani od ANSI organizacije
Uređaji za čitanje OCR fontova dijele se u dvije skupine: uređaji za unos teksta i uređaji za učitavanje podataka
Uređaji za unos teksta mogu skenirati čitave dokumente ili velike dijelove dokumenata Izvor podataka je unesen s namjerom da ga netko mijenja za vrijeme ili nakon skeniranja Uređaji za unos teksta imaju različite stupnjeve automatizacije: od ručnog unosa do automatskog unosa, čitanja, razvrstavanja i kapaciteta memorije
Uređaji za učitavanje podataka koriste postupak gdje skenirani podaci dostavljeni računalu moraju biti vrlo precizni jer su uneseni bez namjere da ih se kasnije mijenja Točnost pri unosu podataka mora biti puno veća nego kod unosa teksta
Postoji mnogo razloga za korištenje OCR metode skeniranja u odnosu na ostale načine unosa podataka: OCR smanjuje mogućnost nastanka pogreške prilikom unosa podataka konsolidira podatke prilikom ulaska čitljiv je i za ljudsko oko može se koristiti za različite tehnike tiska
Prednosti OCR-a nad barkodom OCR je prikladniji za unos podataka u kontroliranim uvjetima za bilo koji broj znakova prikladan je kod ulaska i izlaska novčanih pošiljaka ili sličnih vrijednosnica u novčarske institucije može sadržavati više od četrdeset znakova i različit broj dostupnih informacija, npr. datum dospijeća računa, broj računa, iznos, vrsta usluge i sl
Barkod je najprikladniji za identifikaciju dijelova ili pojedinih predmeta u lošijim uvjetima ili pri učestalom ponavljanju istih nositelja podataka koji sadrže samo nekoliko znakova pri identifikaciji i praćenju putničke prtljage u zračnom prometu Barkodovi su otporniji na grublje rukovanje, ali zauzimaju puno više prostora OCR može sadržavati do šest puta više informacija nego standardni barkod
OCR A font OCR B font Barkod
pomaže i kod pronalaska krivotvorenih novčanica serijski broj na novčanici od 200 hrvatskih kuna tiskan OCR B fontom Upotreba OCR fontova: znatno pomaže pri očitavanju, brojanju i spremanju novčanica u trezore banaka pomaže i kod pronalaska krivotvorenih novčanica Brojač pamti koji su serijski brojevi novčanica ušli u banku i ne može se dva puta pojaviti isti broj
primjena OCR fontova kod putovnica Tu optički čitači pomažu carinicima i graničnoj policiji kod pronalaska krivotvorenih putovnica Isto tako, elektroničkim čitačima se lakše, sigurnije i brže obavlja carinska kontrola
čitanje i prepoznavanje rukopisa koristeći OCR sustav : Da bi se koristeći OCR sustav moglo pročitati i prepoznati tekst potrebno je najprije skenirati sliku sa rezolucijom od 300 dpi.
Proces čitanja i prepoznavanja slovnih znakova program provodi u četiri koraka: 1. otvaranje slike, 2. čitanje slike, 3. provjera pravopisa 4. spremanje teksta u neki od programa za obradu teksta
Nakon otvaranja i čitanja teksta program će prikazati sliku kao tekst Program ne može odmah prepoznati sve slovne znakove U početnoj fazi prepoznavanja slovnih znakova nekog novog fonta program neće prepoznavati znakove Takvi, za program novi znakovi se moraju ručno korigirati na taj način da se program „uči“ prepoznavati znakove
Označeno je kurentno slovo n i dodijeljen mu je znak slova n Taj će znak pogram zapamtiti OCR programi prepoznaju bitmap nakupine i u procesu učenja se određenoj količini bitmap nakupina dodjeljuje neki slovni znak Program svaki znak sprema u bazu fontova koju stvara automatski U bazi se nalaze svi slovni znakovi koje je program ikad pročitao i naučio.
Baza rukopisnih OCR uzoraka
Ponekad se dogodi da OCR u svoju bazu fontova pod nekim slovnim znakom spremi neke bitmap nakupine koje ne predstavljaju nikakvo slovo To se može dogoditi ako je skenirani tekst loš ili ako postoje mrlje na papiru, što je čest slučaj kod dokumenata primljenih putem faksa Takva pogrešno spremljena slova treba izbrisati iz baze OCR uzoraka
Nakon što je program pročitao skenirani tekst i sliku pretvorio u slovne znakove radi se provjera pravopisa To je dodatna kontrola da se provjeri da li je tekst dobro prepoznat i da li su riječi pravilno ispisane U četvrtom koraku tekst se prebacuje i sprema u neki od programa za obradu teksta najčešće Microsoft Word
Tekst nakon prepoznavanja u OCR programu