Download presentation
Presentation is loading. Please wait.
1
Optical Character Recognition ili OCR
Mr.sc. Nikolina Stanić Loknar Grafički fakultet Zagreb
2
Optical Character Recognition ili OCR
je tehnologija koja omogućuje konvertiranje, prevođenje različitih tipova slikovnih dokumenata u formate kojima može manipulirati računalo (to su npr. ASCII ili UNICODE kodovi)
3
Skenirane slike, PDF dokumente ili slike ubačene u računalo pomoću digitalne kamere OCR tehnologija prepoznaje i prebacuje u formate koji mogu biti prerađivani ili dorađivani u programima za obradu teksta kao npr. Microsoft Word OCR sustav se sastoji od optičkog skenera za čitanje teksta i sofisticiranog softvera za analiziranje slika
4
Većina OCR sustava koristi kombinaciju hardvera i softvera koja prepoznaje slovne znakove
Napredni OCR sustavi mogu čitati tekstove pisane velikim brojem fontova, pa i rukopisne fontove
5
Postoje dvije osnovne metode koje se koriste za OCR:
uspoređivanje matrica (eng. Matrix matching) i Pronalaženje ključnih obilježja (eng. Feature extraction)
6
Jednostavnija i učestalija metoda je Matrix matching
Matrix matching metoda uspoređuje što skener vidi kao slovni znak sa popisom slovnih matrica ili predložaka Kada skenirana slika odgovara jednoj od zadanih matrica unutar postavljenog stupnja sličnosti računalo joj dodjeljuje kôd jednog od ASCII znakova.
7
Pronalaženje ključnih obilježja je OCR sustav bez točnog podudaranja s zadanim predloškom - Inteligentno prepoznavanje znakova Ta metoda ovisi o “računalnoj inteligenciji” postavljenoj od strane proizvođača Računalo traži osnovne oblike kao što su: otvorene površine, zatvoreni oblici, dijagonalne linije itd
8
Uspoređivanje matrica najbolje funkcionira kada se radi s manjim brojem različitih pismovnih rezova i s malim razlikama unutar jednog reza Kada postoje veće razlike u izgledu slova metoda Inteligentnog prepoznavanja znakova je prikladnija
9
OCR fontovi su oni koje može raspoznati i pročitati ljudsko oko i uređaj za čitanje OCR fontova Sadrže slovne znakove od A do Z, brojeve i nekoliko posebnih znakova Svaki znak u fontu ima definiranu veličinu i oblik u kojem se pojavljuje OCR fontovi su definirani od ANSI organizacije
10
Uređaji za čitanje OCR fontova dijele se u dvije skupine:
uređaji za unos teksta i uređaji za učitavanje podataka
11
Uređaji za unos teksta mogu skenirati čitave dokumente ili velike dijelove dokumenata
Izvor podataka je unesen s namjerom da ga netko mijenja za vrijeme ili nakon skeniranja Uređaji za unos teksta imaju različite stupnjeve automatizacije: od ručnog unosa do automatskog unosa, čitanja, razvrstavanja i kapaciteta memorije
12
Uređaji za učitavanje podataka koriste postupak gdje skenirani podaci dostavljeni računalu moraju biti vrlo precizni jer su uneseni bez namjere da ih se kasnije mijenja Točnost pri unosu podataka mora biti puno veća nego kod unosa teksta
13
Postoji mnogo razloga za korištenje OCR metode skeniranja u odnosu na ostale načine unosa podataka:
OCR smanjuje mogućnost nastanka pogreške prilikom unosa podataka konsolidira podatke prilikom ulaska čitljiv je i za ljudsko oko može se koristiti za različite tehnike tiska
14
Prednosti OCR-a nad barkodom
OCR je prikladniji za unos podataka u kontroliranim uvjetima za bilo koji broj znakova prikladan je kod ulaska i izlaska novčanih pošiljaka ili sličnih vrijednosnica u novčarske institucije može sadržavati više od četrdeset znakova i različit broj dostupnih informacija, npr. datum dospijeća računa, broj računa, iznos, vrsta usluge i sl
15
Barkod je najprikladniji za identifikaciju dijelova ili pojedinih predmeta u lošijim uvjetima ili pri učestalom ponavljanju istih nositelja podataka koji sadrže samo nekoliko znakova pri identifikaciji i praćenju putničke prtljage u zračnom prometu Barkodovi su otporniji na grublje rukovanje, ali zauzimaju puno više prostora OCR može sadržavati do šest puta više informacija nego standardni barkod
16
OCR A font OCR B font Barkod
17
pomaže i kod pronalaska krivotvorenih novčanica
serijski broj na novčanici od 200 hrvatskih kuna tiskan OCR B fontom Upotreba OCR fontova: znatno pomaže pri očitavanju, brojanju i spremanju novčanica u trezore banaka pomaže i kod pronalaska krivotvorenih novčanica Brojač pamti koji su serijski brojevi novčanica ušli u banku i ne može se dva puta pojaviti isti broj
18
primjena OCR fontova kod putovnica
Tu optički čitači pomažu carinicima i graničnoj policiji kod pronalaska krivotvorenih putovnica Isto tako, elektroničkim čitačima se lakše, sigurnije i brže obavlja carinska kontrola
19
čitanje i prepoznavanje rukopisa koristeći OCR sustav :
Da bi se koristeći OCR sustav moglo pročitati i prepoznati tekst potrebno je najprije skenirati sliku sa rezolucijom od 300 dpi.
20
Proces čitanja i prepoznavanja slovnih znakova program provodi u četiri koraka:
1. otvaranje slike, 2. čitanje slike, 3. provjera pravopisa 4. spremanje teksta u neki od programa za obradu teksta
21
Nakon otvaranja i čitanja teksta program će prikazati sliku kao tekst
Program ne može odmah prepoznati sve slovne znakove U početnoj fazi prepoznavanja slovnih znakova nekog novog fonta program neće prepoznavati znakove Takvi, za program novi znakovi se moraju ručno korigirati na taj način da se program „uči“ prepoznavati znakove
23
Označeno je kurentno slovo n i dodijeljen mu je znak slova n
Taj će znak pogram zapamtiti OCR programi prepoznaju bitmap nakupine i u procesu učenja se određenoj količini bitmap nakupina dodjeljuje neki slovni znak Program svaki znak sprema u bazu fontova koju stvara automatski U bazi se nalaze svi slovni znakovi koje je program ikad pročitao i naučio.
24
Baza rukopisnih OCR uzoraka
25
Ponekad se dogodi da OCR u svoju bazu fontova pod nekim slovnim znakom spremi neke bitmap nakupine koje ne predstavljaju nikakvo slovo To se može dogoditi ako je skenirani tekst loš ili ako postoje mrlje na papiru, što je čest slučaj kod dokumenata primljenih putem faksa Takva pogrešno spremljena slova treba izbrisati iz baze OCR uzoraka
26
Nakon što je program pročitao skenirani tekst i sliku pretvorio u slovne znakove radi se provjera pravopisa To je dodatna kontrola da se provjeri da li je tekst dobro prepoznat i da li su riječi pravilno ispisane U četvrtom koraku tekst se prebacuje i sprema u neki od programa za obradu teksta najčešće Microsoft Word
27
Tekst nakon prepoznavanja u OCR programu
Similar presentations
© 2024 SlidePlayer.com. Inc.
All rights reserved.