Optical Character Recognition ili OCR

Slides:



Advertisements
Similar presentations
1.6. Pohrana podataka.
Advertisements

Provisioning Windowsa 10 na IoT, mobilnim i desktop uređajima
Programi zasnovani na prozorima
PRIJENOS PODATAKA.
v.as.mr. Samir Lemeš Univerzitet u Zenici
predavanja v.as.mr. Samir Lemeš
4.1 Vizualni (grafički) HTML uređivači
PONAVLJANJE CheckBox Koristi se za rešavanje zadataka gde je potrebno omogućiti uključivanje ili isključivanje jedne ili više opcija. Važna svojstva: –Checked.
Struktura i princip rada računara
Compression Plus Nonsteroidal Antiinflammatory Drugs, Aspiration, and Aspiration With Steroid Injection for Nonseptic Olecranon Bursitis ; RCT Joon Yub.
PROGRAMIRANJE MENIJA.
CheckBox RadioButton RadioGroup
The Present Perfect Continuous Tense
Microsoft Office 2007 MS Office je programski paket koji sadrži više programa: MS Word – program za obradu teksta MS Excel – program za izradu tabela sa.
Multimedijalna e-Learning platforma
SEMINARSKI RAD MS WORD.
Petlje FOR - NEXT.
REPEAT…UNTIL Naredbe ciklusa.
KAKO RADI INTERNET.
Komponente izbora i kontejnerske komponente
Uvod u HTML Zoltan Geller 2017
KREIRANJE OBJEKATA.
Europski dan programiranja
Izrada web-stranica.
Reference ćelije i opsega
Elektrotehnički fakultet – Podgorica Operativni sistemi
Podešavanje osobina stranica
LAPLACEOVA TRANSFORMACIJA
SIVI BALANS SIVI OMJER.
SUDOKU Ivo Doko Saša Buzov.
Vežba 1. Formatiranje teksta korišćenjem stilskih šablona
Kartica Insert.
Page Layout Podešavanje stranica.
Element form Milena Kostadinović.
MessageBox.
predavanja v.as.mr. Samir Lemeš
Pojmovi digitalnog zapisa
PROGRAMSKI JEZIK PASCAL
MATEMATIČKI FAKULTET, UNIVERZITET U BEOGRADU
ELEKTRONIČKA POŠTA ( ) OTVARANJE RAČUNA.
Lazarus okruženje TIPOVI UNIT-a
Osnovni simboli jezika Pascal
Razvojne okoline Kolegij: Programski jezik C++ Ak. god. 2017/2018
FAKULTET KEMIJSKOG INŽENJERSTVA I TEHNOLOGIJE
Do While ... Loop struktura
Virtualizacija poslovnih procesa metodom „Swimlane“ dijagrama
Programiranje – Small Basic
Memorije Vrste memorija i osnovni pojmovi Ispisne memorije
posljednja faza razvoja podatkovnih komunikacija
Bacanje kocke pomoću micro:bit-a
Strukture podataka i algoritmi 5. VRIJEME IZVRŠAVANJA ALGORITMA
Nizovi.
Skup instrukcija procesora
Fakultet elektrotehnike i računarstva
Naredbe u php-u.
Programski jezik C++ - Vježbe - 5. dio
Programski jezik Python
Priprema prezentacije
VAŽNOST ČITANJA U NIŽIM RAZREDIMA OSNOVNE ŠKOLE
Kratkotrajne veze žena i muškaraca
Izranjajuća Inteligencija
PROGRAMSKI SUSTAV ZA RASPOZNAVANJE TISKANOG TEKSTA
LimeSurvey Uvjetni prikaz pitanja Internetska istraživanja
1. Sigurno u virtualnom svijetu
BILJEŽNICA MS WORD.
7. Baze podataka Postavke MS Accessa.
Ponavljanje Pisana provjera
INTERPOLACIJA PO DIJELOVIMA POLINOMIMA
Vježbenica 2: struktura grananja – 2.dio
Kako zaštititi privatnost na facebooku
Presentation transcript:

Optical Character Recognition ili OCR Mr.sc. Nikolina Stanić Loknar Grafički fakultet Zagreb

Optical Character Recognition ili OCR je tehnologija koja omogućuje konvertiranje, prevođenje različitih tipova slikovnih dokumenata u formate kojima može manipulirati računalo (to su npr. ASCII ili UNICODE kodovi)

Skenirane slike, PDF dokumente ili slike ubačene u računalo pomoću digitalne kamere OCR tehnologija prepoznaje i prebacuje u formate koji mogu biti prerađivani ili dorađivani u programima za obradu teksta kao npr. Microsoft Word OCR sustav se sastoji od optičkog skenera za čitanje teksta i sofisticiranog softvera za analiziranje slika

Većina OCR sustava koristi kombinaciju hardvera i softvera koja prepoznaje slovne znakove Napredni OCR sustavi mogu čitati tekstove pisane velikim brojem fontova, pa i rukopisne fontove

Postoje dvije osnovne metode koje se koriste za OCR: uspoređivanje matrica (eng. Matrix matching) i Pronalaženje ključnih obilježja (eng. Feature extraction)

Jednostavnija i učestalija metoda je Matrix matching Matrix matching metoda uspoređuje što skener vidi kao slovni znak sa popisom slovnih matrica ili predložaka Kada skenirana slika odgovara jednoj od zadanih matrica unutar postavljenog stupnja sličnosti računalo joj dodjeljuje kôd jednog od ASCII znakova.

Pronalaženje ključnih obilježja je OCR sustav bez točnog podudaranja s zadanim predloškom - Inteligentno prepoznavanje znakova Ta metoda ovisi o “računalnoj inteligenciji” postavljenoj od strane proizvođača Računalo traži osnovne oblike kao što su: otvorene površine, zatvoreni oblici, dijagonalne linije itd

Uspoređivanje matrica najbolje funkcionira kada se radi s manjim brojem različitih pismovnih rezova i s malim razlikama unutar jednog reza Kada postoje veće razlike u izgledu slova metoda Inteligentnog prepoznavanja znakova je prikladnija

OCR fontovi su oni koje može raspoznati i pročitati ljudsko oko i uređaj za čitanje OCR fontova Sadrže slovne znakove od A do Z, brojeve i nekoliko posebnih znakova Svaki znak u fontu ima definiranu veličinu i oblik u kojem se pojavljuje OCR fontovi su definirani od ANSI organizacije

Uređaji za čitanje OCR fontova dijele se u dvije skupine: uređaji za unos teksta i uređaji za učitavanje podataka

Uređaji za unos teksta mogu skenirati čitave dokumente ili velike dijelove dokumenata Izvor podataka je unesen s namjerom da ga netko mijenja za vrijeme ili nakon skeniranja Uređaji za unos teksta imaju različite stupnjeve automatizacije: od ručnog unosa do automatskog unosa, čitanja, razvrstavanja i kapaciteta memorije

Uređaji za učitavanje podataka koriste postupak gdje skenirani podaci dostavljeni računalu moraju biti vrlo precizni jer su uneseni bez namjere da ih se kasnije mijenja Točnost pri unosu podataka mora biti puno veća nego kod unosa teksta

Postoji mnogo razloga za korištenje OCR metode skeniranja u odnosu na ostale načine unosa podataka: OCR smanjuje mogućnost nastanka pogreške prilikom unosa podataka konsolidira podatke prilikom ulaska čitljiv je i za ljudsko oko može se koristiti za različite tehnike tiska

Prednosti OCR-a nad barkodom OCR je prikladniji za unos podataka u kontroliranim uvjetima za bilo koji broj znakova prikladan je kod ulaska i izlaska novčanih pošiljaka ili sličnih vrijednosnica u novčarske institucije može sadržavati više od četrdeset znakova i različit broj dostupnih informacija, npr. datum dospijeća računa, broj računa, iznos, vrsta usluge i sl

Barkod je najprikladniji za identifikaciju dijelova ili pojedinih predmeta u lošijim uvjetima ili pri učestalom ponavljanju istih nositelja podataka koji sadrže samo nekoliko znakova pri identifikaciji i praćenju putničke prtljage u zračnom prometu Barkodovi su otporniji na grublje rukovanje, ali zauzimaju puno više prostora OCR može sadržavati do šest puta više informacija nego standardni barkod

OCR A font OCR B font Barkod

pomaže i kod pronalaska krivotvorenih novčanica serijski broj na novčanici od 200 hrvatskih kuna tiskan OCR B fontom Upotreba OCR fontova: znatno pomaže pri očitavanju, brojanju i spremanju novčanica u trezore banaka pomaže i kod pronalaska krivotvorenih novčanica Brojač pamti koji su serijski brojevi novčanica ušli u banku i ne može se dva puta pojaviti isti broj

primjena OCR fontova kod putovnica Tu optički čitači pomažu carinicima i graničnoj policiji kod pronalaska krivotvorenih putovnica Isto tako, elektroničkim čitačima se lakše, sigurnije i brže obavlja carinska kontrola

čitanje i prepoznavanje rukopisa koristeći OCR sustav : Da bi se koristeći OCR sustav moglo pročitati i prepoznati tekst potrebno je najprije skenirati sliku sa rezolucijom od 300 dpi.

Proces čitanja i prepoznavanja slovnih znakova program provodi u četiri koraka: 1. otvaranje slike, 2. čitanje slike, 3. provjera pravopisa 4. spremanje teksta u neki od programa za obradu teksta

Nakon otvaranja i čitanja teksta program će prikazati sliku kao tekst Program ne može odmah prepoznati sve slovne znakove U početnoj fazi prepoznavanja slovnih znakova nekog novog fonta program neće prepoznavati znakove Takvi, za program novi znakovi se moraju ručno korigirati na taj način da se program „uči“ prepoznavati znakove

Označeno je kurentno slovo n i dodijeljen mu je znak slova n Taj će znak pogram zapamtiti OCR programi prepoznaju bitmap nakupine i u procesu učenja se određenoj količini bitmap nakupina dodjeljuje neki slovni znak Program svaki znak sprema u bazu fontova koju stvara automatski U bazi se nalaze svi slovni znakovi koje je program ikad pročitao i naučio.

Baza rukopisnih OCR uzoraka

Ponekad se dogodi da OCR u svoju bazu fontova pod nekim slovnim znakom spremi neke bitmap nakupine koje ne predstavljaju nikakvo slovo To se može dogoditi ako je skenirani tekst loš ili ako postoje mrlje na papiru, što je čest slučaj kod dokumenata primljenih putem faksa Takva pogrešno spremljena slova treba izbrisati iz baze OCR uzoraka

Nakon što je program pročitao skenirani tekst i sliku pretvorio u slovne znakove radi se provjera pravopisa To je dodatna kontrola da se provjeri da li je tekst dobro prepoznat i da li su riječi pravilno ispisane U četvrtom koraku tekst se prebacuje i sprema u neki od programa za obradu teksta najčešće Microsoft Word

Tekst nakon prepoznavanja u OCR programu