Presentation is loading. Please wait.

Presentation is loading. Please wait.

Pronaženje informacija

Similar presentations


Presentation on theme: "Pronaženje informacija"— Presentation transcript:

1 Pronaženje informacija
Cvetana Krstev čas 1

2 Pronalaženje informacija – šta je tu novo?
Engleski termin je Information Retrieval Koje je značenje reči “retrieval”? Collins Cobuild: If you retrieve sth, you succeed in getting it back from somewhere, especially from the place where you have hidden it or where it should not be. The men were trying to retrieve weapons left when the army abandoned the island Oxford/Hornby: get possession of again: retrieve a lost piece of lagguage

3 Šta kaže Vikipedija? (stara definicija)
Information retrieval (IR) is the science of searching for documents, for information within documents, and for metadata about documents, as well as that of searching relational databases and the WWW. There is overlap in the usage of the terms data retrieval, document retrieval, information retrieval, and text retrieval, but each also has its own body of literature, theory, praxis, and technologies. IR is interdisciplinary, based on computer science, mathematics, library science, information science, information architecture, cognitive psychology, linguistics, statistics, and physics. Automated information retrieval systems are used to reduce what has been called „information overload“. Many universities and public libraries use IR systems to provide access to books, journals and other documents. Web search engines are the most visible IR applications.

4 Šta kaže Vikipedija? (nova definicija)
Information retrieval (IR) is the activity of obtaining information resources relevant to an information need from a collection of information resources. Searches can be based on metadata or on full-text (or other content-based) indexing. Automated information retrieval systems are used to reduce what has been called “information overload”. Many universities and public libraries use IR systems to provide access to books, journals and other documents. Web search engines are the most visible IR applications.. An information retrieval process begins when a user enters a query into the system. Queries are formal statements of information needs, for example search strings in web search engines. In information retrieval a query does not uniquely identify a single object in the collection. Instead, several objects may match the query, perhaps with different degrees of relevancy...

5 O nastanku discipline Ideja: Ideja da bi se računari mogli koristiti za traženje relevantnih informacija je u članku As We May Think koji je objavljen godine u časopisu The Atlantic (pre efektivnog korišćenja računara) popularisao Vannever Bush (Venivar Buš) U ovom radu Buš predstavlja koncept Memex-a, mašine u kojoj bi bila implementirana ideja onoga što danas poznajemo kao hipertekst, verujući da bi takvo otkriće moglo čovečanstvu da pruži „kolektivnu memoriju“, koju bi ono moglo da upotrebi da bi ostvarilo mudrost koja je neophodna da bi se izbeglo korišćenje naučnih otkrića za uništavanje i rat. Buš je verovao da bi pomoću ove mašine eksplozija informacija mogla da se transformiše u eksploziju znanja.

6 Vannever Bush ( ) “As We May Think” je rad Venivara Buša, koji je prvi put objavljen u časopisu The Atlantic jula i ponovljen u skraćenom obliku septembra — pre i posle atomskih bombi bačenih na Hirošimu i Nagasaki. Američki inženjer i pronalazač koji je za vreme Drugog svetskog rata bio na čelu Office of Scientific Research and Development (OSRD), a preko te organizacije su se obavljala takoreći sva istraživanja vezana za ratne aktivnosti, uključujući i pokretanje i vođenje čuvenog projekta Manhattan Project.

7 O nastanku discipline Termin: IR je skovao i prvi upotrebio Calvin Northrup Mooers zajedno sa terminom “descriptor” u svojoj magistarskoj tezi na MIT-u godine, a zatim godine i u radu na ACM (Association for Computer Machinery) konferenciji: The theory of digital handling of non-numerical information and its implications to machine economics Realizacija: Da bi se prevazišlo zaostajanje za SSSR-om u nauci, u SAD-u počinju početkom 50-tih godina XX veka da se finansiraju istraživanja u oblasti “mechanized literature searching systems” i “citation indexing”

8 Malo istorije 60-te godine: prvi sistemi za pronalaženje informacija u kolekcijama manjeg obima (nekoliko hiljada dokumenata). Gerard Selton (Džerard Selton) i sistem SMART (System for the Mechanical Analysis and Retrieval of Text) 70-te godine: Prvi on-line sistemi – NLM’s AIM-TWX, MEDLINE (Medical Literature Analysis and Retrieval System); Lockheed’s Dialog (prvi sistem velikih dimenzija); SDC’s ORBIT Početak 90-tih godina: Ministarstvo odbrane SAD-a (US Department of Defense), zajedno sa Državnim institutom za standarde i tehnologiju (National Institute of Standards and Technology - NIST), finansiraju konferenciju Text Retrieval Conference (TREC) sa ciljem da se istraživačima u oblasti IR obezbedi potrebna infrastruktura za evaluaciju metodologija za pronaženje tekstualnih informacija u vrlo velikim kolekcijama dokumenata.

9 Bum 90-tih 1989: Tim Berners-Lee iz CERN-a je sačinio prvi predlog World Wide Web-a. Kasne 90-te: U mašinama za pretraživanje veba primenjena su mnoga napredna svojstva koja su ranije imali samo eksperimentalni IR sistemi. Mašine za pretraživanje su postale najčešći i najbolji primer za modele, istraživanje i realizaciju u pronalaženju informacija.

10 Ko je Sir Tim Berners-Lee?

11 Šta je o njemu mislio britanski “Sun” 1991. godine
A British computer geek’s brainwave could be one of the greatest inventions ever, it was claimed last night

12 Razvoj pojma Pronalaženje informacija
Sistemi za pronalaženje dokumenata Sistemi za pronalaženje tekstualnih dokumenata Savremeno pronalaženje dokumenata Pronalaženje dokumenata s punim tekstom Sistemi za pronalaženje multimedijalnih dokumenata

13 Sistemi za pronalaženje dokumenata
Prvi sistemi za pronalaženje informacija Njihova svrha je bila da pronađu informacije o postojanju ili nepostojanju bibliografskih dokumenata koja su relevantna za korisnikov upit. Ova dokumenta uz bibliografske podatke mogu da sadrže ključne reči, apstrakt ili sažetak, itd. Ovi sistemi ne informišu korisnika, tj. ne menjaju njegovo znanje o temi upita, već mu samo govore da li postoje i gde se nalaze dokumenta koja su vezana za korisnikov zahtev.

14 Sistemi za pronalaženje tekstualnih dokumenata
Pojam pronalaženja informacija se suštinski promenio kada su počela da se skladište u digitalnom obliku kompletna dokumenta (“pun tekst dokumenata”) Ovi sistemi mogu da pretražuju ili po bibliografskim podacima ili se u tekstu dokumenta iz uskladištene kolekcije traži tekst koji je korisnik zadao kao upit

15 Sistemi za pronalaženje multimedijalnih dokumenata
Pojam sistema za pronalaženje informacija je na početku značio pronalaženje tekstualnih informacija Savremeni multimedijalni sistemi pronalaze multimedijalne informacije što osim teksta, podrazumeva slike, zvuk i pokretne slike. Mnoge tehnike koje se koriste za pronalaženje tekstualnih informacija se mogu primeniti i na multimedijalna dokumenta, iako su za njih razvijeni mnogi novi alati i tehnike. (Mi se time u okviru ovog kursa nećemo baviti)

16 Odnos sistema za pronalaženje informacija i sistema za upravljanje bazama podataka
Sistemi za upravljanje (relacionim) bazama podataka Sistemi za rad s bibliografskim podacima I u njima su sadržane činjenice ali kao meta-podaci (podaci o podacima) o dokumentima koja se zapravo traže.

17 Sistemi za upravljanje (relacionim) bazama podataka
U njima su sadržane činjenice kao vrednosti odgovarajućih atributa. Korisnik pretražuje i kao odgovor dobija činjenice (npr. Koja je prosečna starost vozača u autobuskom preduzeću?) Podaci su u principu obavezni i unapred poznate (maksimalne) dužine

18 Sistemi za rad s bibliografskim podacima
I u njima su sadržane činjenice ali kao meta-podaci (podaci o podacima) o dokumentima koja se zapravo traže. I njih je moguće pretraživati po činjenicama (npr. Koliko različitih autora je objavljivalo kod “Prosvete” godine?) Ali najčešće se traže podaci koji će pomoći da se pronađu potrebna dokumenta („na polici“ ili u bazi podataka) Karakterišu ih neobavezni podaci promenljive dužine. Za njihov opis koriste se formati iz familije MARC (MAchine Readable Cataloguing)

19 Sistemi za pronalaženje informacija
Traže se dokumenta koja u potpunosti, ali češće delimično, odgovaraju korisnikovom upitu. (“Interesuju me tekstovi koji govore o maloletničkom nasilju na sportskim terenima”) Otuda se sistemi za pronalaženje dokumenata sastoje od tri važne komponente: Informacione stavke; Korisničke informacione potrebe i upiti; Sravnjivanje upita sa bazom podataka dokumenta

20 Šta sistem za pronalaženje informacija treba da radi
Analizira sadržaj informacionih izvora kao i korisničkih upita i na osnovu toga Sravnjuje jedne i druge da bi pronašao one koju su za korisnika relevantni (najrelevantniji).

21 Na osnovu toga sledi da su glavne funkcije sistema za pronalaženje:
Identifikacija informacionih izvora koji su relevantni za oblast interesovanja ciljne grupe korisnika; Analiza sadržaja informacionih izvora (dokumenata); Reprezentacija sadržaja analiziranih izvora na način koji bi bio pogodan za sravnjivanje s korisničkim upitima; Analiza korisničkih upita i njihova reprezentacija u obliku koji bi bio pogodan za sravnjivanje s bazom podataka dokumenata; Sravnjivanje upitnog iskaza sa uskladištenom bazom; Pronalaženje relevantnih informacija; Potrebno podešavanje odgovora na osnovu odziva korisnika.

22 Komponente sistema za pronalaženje informacija
Podsistem dokumenata; Podsistem za indeksiranje; Rečnički podsistem; Podsistem za pretraživanje; Korisničko sučelje (interface); Podsistem za sravnjivanje.

23 Opšti nacrt sistema za pronalaženje
Informacioni izvori Analiza i reprezentacija Organizacija informacija Prezentacija informacija Pronađene informacije sravnjivanje Korisnikove potrebe Analiza Kor.pot. Upitni iskazi

24 Tipovi sistema za pronalaženje informacija
Kućni sistemi za pronalaženje informacija služe korisnicima unutar neke organizacije On-line sistemi za pronalaženje informacija obezbeđuju raznovrsnim korisnicima pristup udaljenim bazama podataka Javno dostupni (npr. OPAC) Pristup na komercijalnoj osnovi Baze podataka na CD-ROM ili DVD

25 Zastarevanje digitalnih podataka
Korišćenje digitalnih metoda za skladištenje i pronalaženje informacija je dovelo do fenomena koji je poznat kao zastarevanje digitalnih podataka (digital obsolescence), kada digitalni resurs više ne može da se pročita bilo zato što fizički medij ili uređaj koji ga čita više nije dostupan, ili nije dostupan hardver ili softver koji se na njemu izvršava. Digitalne informacije je na početku lakše pronaći nego one na papiru, ali u jednom trenutku, ako se na vreme ne prenesu na savremeniji medijum, one su potpuno izgubljene.

26 Primer zastarevanja digitalnog materijala
BBC Domesday Project je trebalo da obeleži 900-tu godišnjicu originalnog dokumenta Domesday Book, koji predstavlja popis stanovništva Engleske iz XI veka. Smešten je na laserskim diskovima (Laser Vision Read-Only Memory LV-ROM format) – prethodnik CD-ROM Softver je pisan na programskom jeziku BCPL (prethodnik jezika C) Slike su bile u analognom formatu (pre nastanka JPEG) ...


Download ppt "Pronaženje informacija"

Similar presentations


Ads by Google