Download presentation
Presentation is loading. Please wait.
Published bySugiarto Widjaja Modified over 6 years ago
1
Parametri za ocenjivanje efikasnosti pronalaženja
Cvetana Krstev Čas 5.
2
Merenje efikasnosti sistema za pronalaženje informacija
Predstavili smo sisteme za pronalaženje informacija zasnovane na predstavljanju dokumenata izabranom listom termina (koja je nekako izabrana) i razna proširenja osnovne ideje: parametri blizine, podsecanje upitnih termina, sinonimi, težine dodeljenih termina Ali kako da znamo koji od ovih pristupa je zaista efikasan i u kojim situacijama, odnosno koji je bolji u odnosu na druge?
3
Evaluacija sistema za pronalaženje informacija
Da bismo ad hoc izmerili efikasnost nekog sistema za pronalaženje informacija na neki standardan način, potrebna nam je kolekcija za testiranje koja se sastoji od tri dela: Kolekcija dokumenata Paket informacionih potreba koje se obično izražavaju preko upita Skup procena relevantnosti koji se obično izražava dodeljivanjem binarne vrednosti (relevantan / nije relevantan) svakom paru (upit,dokument)
4
Kolekcija dokumenata za testiranje
Obično se naziva zlatni standard (gold standard) I kolekcija dokumenata i paket informacionih potreba treba da budu razumne veličine. Kolekcija dokumenata treba da bude dovoljno velika i raznovrsna da rezultati merenja efikasnosti ne bi suviše zavisili od samog izbora dokumenata, a dovoljno mala da se njihova relevantnost može proceniti za svaku informacionu potrebu (jer to treba da uradi jedan čovek, ili što je češće slučaj, više ljudi) Praksa pokazuje da je 50 informacionih potreba donja granica Uspešnost sistema za pronalaženje se potom procenjuje poreženjem rezultata rada sistema i zlatnog standarda.
5
Odnos informacione potrebe korisnika i upita
Relevantnost se određuje relativno u odnosu na informacionu potrebu, a ne na upit. Primer: Informaciona potreba: Information on whether drinking red wine is more effective at reducing your risk of heart attacks than drinking white wine. Može se prevesti u sledeći upit: wine AND red AND white AND heart AND attack AND effective Dokument je relevantan ako odgovara informacionim potrebama korisnika, a ne ako slučajno sadrži reči sadržane u upitu. Zlatni standard treba da omogući procenu raznih sistema – na primer, koliko neki sistemi omogućavaju obradu „inteligentnih“ upita.
6
Paradoks! Ako na Google-u postavite upit:
wine red white heart attack effective Već među prvih 10 odgovora biće dva koja se odnose na kurseve iz Pronalaženja informacija (iz Italije, Hongkonga), slede kursevi iz SAD-a, Velike Britanije, Kanade (na udaljenijim stranama). Svi su preuzeli isti primer (kao i ja) iz knjige: P. Jackson, I. Moulnier, Natural Language Processing for On-linreApplications, John Benjamins, Publishing Company, 2007
7
Još jedan primer – šta se podrazumeva pod inteligentnom obradom upita
Informaciona potreba: penzioni zakon u republikama bivše Jugoslavije Google – ništa na prvoj strani "penzioni zakon" AND "republika bivše Jugoslavije" Google – ništa na prvoj strani (govori se samo o građanima Srbije koji su staž ostvarivali i u republikama bivše YU) "penzioni zakon" AND (Srbija OR Hrvatska OR Slovenija...) Google – prvi odgovor relevanantan, svi relevantni na prvoj stanici odnose se na Srbiju
8
Poznate kolekcije za testiranje
Cranfield kolekcija Iz Velike Britanije, sadrži 1398 članaka iz oblasti aerodinamike i paket od 225 upita – iscrpno procenjena relevantnost TREC8 (Text Retrieval Conference) novinskih vesti i 150 informacionih potreba – nije iscrpno procenjena relevantnost Reuters-RCV1 dokumenata 20 Newsgroups Po 1000 članaka iz 20 izabranih Newsgroups
9
Parametri odziv i preciznost za ocenu sistema za pronalaženje bez rangiranih rezultata
Dva glavna parametra za ocenjivanje efikasnosti pronalaženja su u upotrebi već godinama. To su: odnos izdvojenih relevantnih stavki i ukupno relevantnih stavki, ili odziv (engl. recall - R) odnos izdvojenih relevantnih stavki i ukupno izdvojenih stavki, ili preciznost (engl. precision - P).
10
Odnos parametara odziv i preciznost
Za uska pitanja, preciznost je velika - skoro sve izdvojeno je i relevantno - ali je odziv mali jer je u stvari jako malo relevantnih stavki pronađeno. Kako se formulacije upita šire, ukupan broj pronađenih relevantnih dokumenata raste, što povećava odziv. Ali u isto vreme raste i broj izdvojenih nerelevantnih stavki, a to smanjuje preciznost. To jest, uski upiti daju visoku preciznost a mali odziv, dok široki upiti daju obrnuti rezultat - veliki odziv a malu preciznost. Ova dva parametra su obrnuto proporcionalna.
11
Podela kolekcije dokumenata upitom na četiri dela
Izdvojene stavke Neizdvojene stavke Nerelevatne stavke Relevatne stavke
12
Preciznost: P=a/(a+b) Odziv: R= a/(a+c) b – izdvojene
nerelevatne stavke a – izdvojene relevantne stvake d – neizdvojene nerelevantne stavke c – neizdvojene relevatne stavke Skupovi a i d treba da budu što veći Skupovi b i c treba da budu što manji Odziv: R= a/(a+c)
13
Preciznost: P=tp/(tp+fp) Odziv: R= tp/(tp+fn) b=fp – false positive
a=tp – true positive d=tn – true negative c=fn – false negative Odziv: R= tp/(tp+fn)
14
Varijacije parametara odziv i preciznost u zavisnosti od širine upita
malo izdvojenih nerelevantnih uzak upit malo izdvojenih relevantnih mnogo neizdvojenih relevantnih
15
Varijacije parametara odziv i preciznost u zavisnosti od širine upita
širok upit više izdvojenih nerelevantnih više izdvojenih relevantnih
16
Odnos parametara preciznost i odziv
Na x osi su izdvojena dokumenta Na y osi je odziv Odziv uvek može da bude visok, čak 1 (tj. 100%) ako ponudimo korisniku sva dokumenta. Odziv je neopadajuća funkcija broja pronađenih dokumenata, tj. kako raste broj izdvojenih dokumenata, raste i odziv. Preciznost obično opada sa brojem pronađenih dokumenata, tj. kako raste broj izdvojenih dokumenata preciznost pada. R a+b (x1, x2) (x1x2 f(x1) f(x2)) P a+b (x1, x2) (x1x2 f(x1) f(x2)) Na x osi su izdvojena dokumenta Na y osi je preciznost
17
Alternativna mera – mera tačnosti
To je mera koja utvrđuje koliki deo klasifikovanih dokumenata je ispravno klasifikovan, tj. ispravno smešten u grupu relevantnih odnosno nerelevantnih dokumenata. A (accuracy) = (a+d)/(a+b+c+d) = (a+d)/sve A (accuracy) = (tp+tn)/(tp+fp+fn+tn) = (tp+tn)/sve Ovo je mera uspešnosti klasifikacije, tj. uspešnog klasifikovanja dokumenta relevantan/nerelantan
18
Neadekvatnost mere tačnosti za merenje uspešnosti sistema za pronalaženje
Podaci su često vrlo iskrivljeni. Naime, najčešće je najveći deo dokumenata kolekcije nerelevantan, i do 99,9%. Ako bismo želeli da podesimo sistem na maksimalnu tačnost dovoljno je da odbacimo sva dokumenta i dobićemo tačnost od skoro 100%. Za korisnike je to nepoželjno jer oni najčešće žele da dobiju bar neki odgovor, čak iako je on izmešan sa dosta nerelevantnih odgovora.
19
Jedan parametar koji meri izbalansiranost odziva i preciznosti
U opštem slučaju korisnik želi da dobije određen nivo odziva pri čemu će tolerisati određen procenat pogrešno određenih relevantnih odgovora (b=fp) U posebnom slučaju Veb surfer obično želi da mu svi rezultati na prvoj stranici budu relevantni (visoka preciznost) dok ga uopšte ne interesuje da pronađe sve relevantne niti misli da ih gleda Istraživač koji radi za tajnu službu želi da pronađe sve relevantne i uopšte ga ne brine ako će zato morati da pregleda i mnogo nerelevantnih ponuđenih.
20
F-mera koja se zasniva na harmonijskoj sredini
Šta je harmonijska sredina? Aritmetička sredina: A=(P+R)/2 Geometrijska sredina: G=PR Harmonijska sredina: H=2/(1/P+1/R) Uvek važi: H G A Harmonijska sredina naginje manjoj od dve vrednosti Ona teži da neutrališe uticaj većeg, a potencira značaj manjeg
21
Prednosti F-mere Zašto aritmetička sredina nije dobra?
Pošto uvek možemo da dobijemo odziv 100% ako izdvojimo sva dokumenta, preciznost će biti skoro 0, ali aritmetička sredina će biti 50%, tako da ispada da je rezultat pronalaženja skoro dobar Neka je 1 dokument kolekcije relevantan (a+c=1), i neka je on među (a+b=10.000) pronađenih dokumenata. Tada je: R= 1 (ili 100%) P= 1/10000 = 0,0001 (ili 0,01%) A=(1+0,0001)/2 = 0,50005 (ili 50,005%) F= (2*1*0,0001)/(1+0,0001) = 0,0002 (ili 0,02%)
22
Davanje prednosti odzivu ili preciznosti
Takvu vrednost α bi izabrao veb surfer Takvu vrednost α bi izabrao radnik tajne službe
23
Evalucija rezultata rangiranog pronalaženja
Preciznost, odziv i F-mera se definišu na neuređenim skupovima Ove mere moraju da se prošire ili da se uvedu nove mere ako se rezultati pronalaženja rangiraju (npr. Google) U ovom slučaju se računaju preciznost i odziv za prvih k dokumenata. Kada se k menja dobija se kriva zavisnosti preciznosti od odziva
24
Grafikon preciznost-odziv
25
Izgled grafikona preciznost-odziv
Ovaj graf ima prepoznatljiv testerast izgled. Zašto? Ako je (k+1)-i dokument nerelevantan onda odziv ostaje isti a preciznost pada Ako je (k+1)-i dokument relevantan onda rastu i preciznost i odziv i kriva skače nagore i udesno.
26
Interpolirana kriva preciznost-odziv
Ponekad se uklanjaju ovi zupci tako što se koristi interpolacija: interpolirana preciznost se dobija kao maksimalna preciznost na nekom utvrđenom nivou odziva r (najveća preciznost za svaki odziv r’ > r): pinterp(r) = maxr’≥r p(r’) Opravdanje za ovo je da je skoro svako spreman da gleda malo više dokumenata ako će time dobiti nešto više relevantnih Crvena linija na prethodnom grafikonu. Sa rastom odziva, dodavanje novog dokumenata pronađenim dokumentima jako malo utiče na preciznost (pri kraju grafikona plava i crvena linija se skoro poklapaju).
27
Interpolirana srednja preciznost u 11 tačaka
Izučavanje celokupne krive preciznost-odziv je informativno ali nepraktično. Postoji potreba da se merenje svede ako je moguće na jedan broj. Za svaku informacionu potrebu iz probnog skupa se računa interpolirana preciznost na 11 nivoa odziva: 0.0, 0.1, 0.2, ..., 0.9, 1.0. Za svaki od 11 nivoa odziva se zatim računa srednja vrednost interpoliranih preciznost za sve informacione potrebe.
28
Grafikon srednjih interpoliranih vrednosti preciznosti za 11 nivoa odziva (za 50 upita tj. informacionih potreba)
29
Prosečna preciznost (Average Precision)
Daje meru uspešnosti pronalaženja kao jedan broj. AP je prosečna preciznost p(r) u intervalu r=0 do r=1. Računa se kao zbir za svaki dodati dokument u listi rangiranih dokumenata. Gde je k rang u sekvenci pronađenih dokumenata, n je broj pronađenih dokumenata, P(k) je preciznost u presečnoj tački k, a Δr(k) je promena u odzivu s (k-1)-vog rangiranog dokumenta do k-tog.
30
Prosečna preciznost (Average Precision)
Prethodna suma je ekvivalentna sa: gde je rel(k) indikator koji ima vrednost 1 ako je dokument rangiran kao k-ti relevantan, inače dobija vrednost 0. Primetimo da se srednja vrednost računa za sva relevantna dokumenta, pa relevantna koja nisu pronađena dobijaju preciznost 0.
31
Srednja prosečna preciznost (Mean Average Precision) - MAP
Srednja prosečna preciznost za skup upita (informacionih potreba) je srednja vrednost prosečnih vrednosti za svaki upit. gde je Q broj upita. Ova MAP mera je veoma osetljiva na same upite (jer neki vraćaju veliki broj dokumenata a neki veoma malo).
32
U slučaju ovog sistema i 50 informacionih potreba korišćenih za procemu MAP=0,2553.
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.