Pronaženje informacija

Slides:



Advertisements
Similar presentations
Ma.
Advertisements

El Alfabeto Con Vocabulario
Click on each of us to hear our sounds.
Las Vocales En Espanol.
1 Predlozi tema za master radove – 2010/11. Cvetana Krstev.
HIRAGANA by number of strokes Images from:
PHONICS Repeat each sound. Blend the sounds. Read each word.
ma mu mi mo me pe pi pa pu po si sa so.
Sílabas con m,p,s tema 2. pe so ma si mu se.
MA. ME MI MO MU MÁ MÉ MÍ MÓ MŮ LA LE LI.
Being in Bamberg allowed us to meet incredible people from Europe and the world. Studying with them opened our eyes to the many.
1.6. Pohrana podataka.
Provisioning Windowsa 10 na IoT, mobilnim i desktop uređajima
Programi zasnovani na prozorima
v.as.mr. Samir Lemeš Univerzitet u Zenici
Operativni sistemi.
PONAVLJANJE CheckBox Koristi se za rešavanje zadataka gde je potrebno omogućiti uključivanje ili isključivanje jedne ili više opcija. Važna svojstva: –Checked.
Struktura i princip rada računara
Teorema o 4 boje(Four color theorem)
PROGRAMIRANJE MENIJA.
CheckBox RadioButton RadioGroup
The Present Perfect Continuous Tense
Klauzule GROUP BY i HAVING
Istorijski razvoj WINDOWS-a
Microsoft Office 2007 MS Office je programski paket koji sadrži više programa: MS Word – program za obradu teksta MS Excel – program za izradu tabela sa.
Multimedijalna e-Learning platforma
Petlje FOR - NEXT.
POSLOVNA INFORMATIKA -akdemska 2017/2018 godina-
KAKO RADI INTERNET.
Uvod u HTML Zoltan Geller 2017
XXIV Skup TRENDOVI RAZVOJA: “DIGITALIZACIJA VISOKOG OBRAZOVANJA” REPOZITORIJUMI - DIGITALNI RESURSI SAVREMENOG OBRAZOVANJA Kopaonik, februar,
Klauzule GROUP BY i HAVING
KREIRANJE OBJEKATA.
APLIKATIVNI SOFTVER Za razliku od sistemskog softvera čiji je osnovni zadatak usmeravanje, nadgledanje i podržavanje rada računarskog sistema, aplikativni.
Izrada web-stranica.
Reference ćelije i opsega
Razvoj Web aplikacija Ajax.
Elektrotehnički fakultet – Podgorica Operativni sistemi
14 UNUTRAŠNJE I ANONIMNE KLASE
Ass. prof. dr Lazar Stošić
Armin Teskeredzic Zagreb, Hrvatska,
Izrada korpusa u kontekstu „frameworka“
Pristup podacima Izvještaji
METODOLOGIJA NAUČNOG ISTRAŽIVANJA
Element form Milena Kostadinović.
MessageBox.
Pojmovi digitalnog zapisa
MSc Aleksa Piljević Programersko iskustvo pre i posle zaposlenja.
Office Graph development ili kako iskoristi Delve za svoje aplikacije
PROGRAMSKI JEZIK PASCAL
Мр Небојша РЕЏИЋ Агенција за заштиту животне средине
PRAĆENJE STATISTIKE POSEĆENOSTI WEB-PREZENTACIJE
EPIDEMIOLOGIJA HIV INFEKCIJE U HRVATSKOJ
MATEMATIČKI FAKULTET, UNIVERZITET U BEOGRADU
ELEKTRONIČKA POŠTA ( ) OTVARANJE RAČUNA.
Lazarus okruženje TIPOVI UNIT-a
Osnovni simboli jezika Pascal
Virtualizacija poslovnih procesa metodom „Swimlane“ dijagrama
Strukture podataka i algoritmi 5. VRIJEME IZVRŠAVANJA ALGORITMA
PREZENTACIJA KOLEGIJA
Odgovorna provedba istraživanja (Responsible Conduct of Research, RCR)
Programski jezik Python
Priprema prezentacije
VAŽNOST ČITANJA U NIŽIM RAZREDIMA OSNOVNE ŠKOLE
LimeSurvey Uvjetni prikaz pitanja Internetska istraživanja
1. Sigurno u virtualnom svijetu
7. Baze podataka Postavke MS Accessa.
Darko Anđelković University of Niš
Kako zaštititi privatnost na facebooku
Presentation transcript:

Pronaženje informacija Cvetana Krstev čas 1

Pronalaženje informacija – šta je tu novo? Engleski termin je Information Retrieval Koje je značenje reči “retrieval”? Collins Cobuild: If you retrieve sth, you succeed in getting it back from somewhere, especially from the place where you have hidden it or where it should not be. The men were trying to retrieve weapons left when the army abandoned the island Oxford/Hornby: get possession of again: retrieve a lost piece of lagguage

Šta kaže Vikipedija? (stara definicija) Information retrieval (IR) is the science of searching for documents, for information within documents, and for metadata about documents, as well as that of searching relational databases and the WWW. There is overlap in the usage of the terms data retrieval, document retrieval, information retrieval, and text retrieval, but each also has its own body of literature, theory, praxis, and technologies. IR is interdisciplinary, based on computer science, mathematics, library science, information science, information architecture, cognitive psychology, linguistics, statistics, and physics. Automated information retrieval systems are used to reduce what has been called „information overload“. Many universities and public libraries use IR systems to provide access to books, journals and other documents. Web search engines are the most visible IR applications.

Šta kaže Vikipedija? (nova definicija) Information retrieval (IR) is the activity of obtaining information resources relevant to an information need from a collection of information resources. Searches can be based on metadata or on full-text (or other content-based) indexing. Automated information retrieval systems are used to reduce what has been called “information overload”. Many universities and public libraries use IR systems to provide access to books, journals and other documents. Web search engines are the most visible IR applications.. An information retrieval process begins when a user enters a query into the system. Queries are formal statements of information needs, for example search strings in web search engines. In information retrieval a query does not uniquely identify a single object in the collection. Instead, several objects may match the query, perhaps with different degrees of relevancy...

O nastanku discipline Ideja: Ideja da bi se računari mogli koristiti za traženje relevantnih informacija je u članku As We May Think koji je objavljen 1945. godine u časopisu The Atlantic (pre efektivnog korišćenja računara) popularisao Vannever Bush (Venivar Buš) U ovom radu Buš predstavlja koncept Memex-a, mašine u kojoj bi bila implementirana ideja onoga što danas poznajemo kao hipertekst, verujući da bi takvo otkriće moglo čovečanstvu da pruži „kolektivnu memoriju“, koju bi ono moglo da upotrebi da bi ostvarilo mudrost koja je neophodna da bi se izbeglo korišćenje naučnih otkrića za uništavanje i rat. Buš je verovao da bi pomoću ove mašine eksplozija informacija mogla da se transformiše u eksploziju znanja.

Vannever Bush (1890-1974) “As We May Think” je rad Venivara Buša, koji je prvi put objavljen u časopisu The Atlantic jula 1945. i ponovljen u skraćenom obliku septembra 1945. — pre i posle atomskih bombi bačenih na Hirošimu i Nagasaki. Američki inženjer i pronalazač koji je za vreme Drugog svetskog rata bio na čelu Office of Scientific Research and Development (OSRD), a preko te organizacije su se obavljala takoreći sva istraživanja vezana za ratne aktivnosti, uključujući i pokretanje i vođenje čuvenog projekta Manhattan Project.

O nastanku discipline Termin: IR je skovao i prvi upotrebio Calvin Northrup Mooers zajedno sa terminom “descriptor” u svojoj magistarskoj tezi na MIT-u 1948. godine, a zatim 1950. godine i u radu na ACM (Association for Computer Machinery) konferenciji: The theory of digital handling of non-numerical information and its implications to machine economics Realizacija: Da bi se prevazišlo zaostajanje za SSSR-om u nauci, u SAD-u počinju početkom 50-tih godina XX veka da se finansiraju istraživanja u oblasti “mechanized literature searching systems” i “citation indexing”

Malo istorije 60-te godine: prvi sistemi za pronalaženje informacija u kolekcijama manjeg obima (nekoliko hiljada dokumenata). Gerard Selton (Džerard Selton) i sistem SMART (System for the Mechanical Analysis and Retrieval of Text) 70-te godine: Prvi on-line sistemi – NLM’s AIM-TWX, MEDLINE (Medical Literature Analysis and Retrieval System); Lockheed’s Dialog (prvi sistem velikih dimenzija); SDC’s ORBIT Početak 90-tih godina: Ministarstvo odbrane SAD-a (US Department of Defense), zajedno sa Državnim institutom za standarde i tehnologiju (National Institute of Standards and Technology - NIST), finansiraju konferenciju Text Retrieval Conference (TREC) sa ciljem da se istraživačima u oblasti IR obezbedi potrebna infrastruktura za evaluaciju metodologija za pronaženje tekstualnih informacija u vrlo velikim kolekcijama dokumenata.

Bum 90-tih 1989: Tim Berners-Lee iz CERN-a je sačinio prvi predlog World Wide Web-a. Kasne 90-te: U mašinama za pretraživanje veba primenjena su mnoga napredna svojstva koja su ranije imali samo eksperimentalni IR sistemi. Mašine za pretraživanje su postale najčešći i najbolji primer za modele, istraživanje i realizaciju u pronalaženju informacija.

Ko je Sir Tim Berners-Lee?

Šta je o njemu mislio britanski “Sun” 1991. godine A British computer geek’s brainwave could be one of the greatest inventions ever, it was claimed last night

Razvoj pojma Pronalaženje informacija Sistemi za pronalaženje dokumenata Sistemi za pronalaženje tekstualnih dokumenata Savremeno pronalaženje dokumenata Pronalaženje dokumenata s punim tekstom Sistemi za pronalaženje multimedijalnih dokumenata

Sistemi za pronalaženje dokumenata Prvi sistemi za pronalaženje informacija Njihova svrha je bila da pronađu informacije o postojanju ili nepostojanju bibliografskih dokumenata koja su relevantna za korisnikov upit. Ova dokumenta uz bibliografske podatke mogu da sadrže ključne reči, apstrakt ili sažetak, itd. Ovi sistemi ne informišu korisnika, tj. ne menjaju njegovo znanje o temi upita, već mu samo govore da li postoje i gde se nalaze dokumenta koja su vezana za korisnikov zahtev.

Sistemi za pronalaženje tekstualnih dokumenata Pojam pronalaženja informacija se suštinski promenio kada su počela da se skladište u digitalnom obliku kompletna dokumenta (“pun tekst dokumenata”) Ovi sistemi mogu da pretražuju ili po bibliografskim podacima ili se u tekstu dokumenta iz uskladištene kolekcije traži tekst koji je korisnik zadao kao upit

Sistemi za pronalaženje multimedijalnih dokumenata Pojam sistema za pronalaženje informacija je na početku značio pronalaženje tekstualnih informacija Savremeni multimedijalni sistemi pronalaze multimedijalne informacije što osim teksta, podrazumeva slike, zvuk i pokretne slike. Mnoge tehnike koje se koriste za pronalaženje tekstualnih informacija se mogu primeniti i na multimedijalna dokumenta, iako su za njih razvijeni mnogi novi alati i tehnike. (Mi se time u okviru ovog kursa nećemo baviti)

Odnos sistema za pronalaženje informacija i sistema za upravljanje bazama podataka Sistemi za upravljanje (relacionim) bazama podataka Sistemi za rad s bibliografskim podacima I u njima su sadržane činjenice ali kao meta-podaci (podaci o podacima) o dokumentima koja se zapravo traže.

Sistemi za upravljanje (relacionim) bazama podataka U njima su sadržane činjenice kao vrednosti odgovarajućih atributa. Korisnik pretražuje i kao odgovor dobija činjenice (npr. Koja je prosečna starost vozača u autobuskom preduzeću?) Podaci su u principu obavezni i unapred poznate (maksimalne) dužine

Sistemi za rad s bibliografskim podacima I u njima su sadržane činjenice ali kao meta-podaci (podaci o podacima) o dokumentima koja se zapravo traže. I njih je moguće pretraživati po činjenicama (npr. Koliko različitih autora je objavljivalo kod “Prosvete” 1986. godine?) Ali najčešće se traže podaci koji će pomoći da se pronađu potrebna dokumenta („na polici“ ili u bazi podataka) Karakterišu ih neobavezni podaci promenljive dužine. Za njihov opis koriste se formati iz familije MARC (MAchine Readable Cataloguing)

Sistemi za pronalaženje informacija Traže se dokumenta koja u potpunosti, ali češće delimično, odgovaraju korisnikovom upitu. (“Interesuju me tekstovi koji govore o maloletničkom nasilju na sportskim terenima”) Otuda se sistemi za pronalaženje dokumenata sastoje od tri važne komponente: Informacione stavke; Korisničke informacione potrebe i upiti; Sravnjivanje upita sa bazom podataka dokumenta

Šta sistem za pronalaženje informacija treba da radi Analizira sadržaj informacionih izvora kao i korisničkih upita i na osnovu toga Sravnjuje jedne i druge da bi pronašao one koju su za korisnika relevantni (najrelevantniji).

Na osnovu toga sledi da su glavne funkcije sistema za pronalaženje: Identifikacija informacionih izvora koji su relevantni za oblast interesovanja ciljne grupe korisnika; Analiza sadržaja informacionih izvora (dokumenata); Reprezentacija sadržaja analiziranih izvora na način koji bi bio pogodan za sravnjivanje s korisničkim upitima; Analiza korisničkih upita i njihova reprezentacija u obliku koji bi bio pogodan za sravnjivanje s bazom podataka dokumenata; Sravnjivanje upitnog iskaza sa uskladištenom bazom; Pronalaženje relevantnih informacija; Potrebno podešavanje odgovora na osnovu odziva korisnika.

Komponente sistema za pronalaženje informacija Podsistem dokumenata; Podsistem za indeksiranje; Rečnički podsistem; Podsistem za pretraživanje; Korisničko sučelje (interface); Podsistem za sravnjivanje.

Opšti nacrt sistema za pronalaženje Informacioni izvori Analiza i reprezentacija Organizacija informacija Prezentacija informacija Pronađene informacije sravnjivanje Korisnikove potrebe Analiza Kor.pot. Upitni iskazi

Tipovi sistema za pronalaženje informacija Kućni sistemi za pronalaženje informacija služe korisnicima unutar neke organizacije On-line sistemi za pronalaženje informacija obezbeđuju raznovrsnim korisnicima pristup udaljenim bazama podataka Javno dostupni (npr. OPAC) Pristup na komercijalnoj osnovi Baze podataka na CD-ROM ili DVD

Zastarevanje digitalnih podataka Korišćenje digitalnih metoda za skladištenje i pronalaženje informacija je dovelo do fenomena koji je poznat kao zastarevanje digitalnih podataka (digital obsolescence), kada digitalni resurs više ne može da se pročita bilo zato što fizički medij ili uređaj koji ga čita više nije dostupan, ili nije dostupan hardver ili softver koji se na njemu izvršava. Digitalne informacije je na početku lakše pronaći nego one na papiru, ali u jednom trenutku, ako se na vreme ne prenesu na savremeniji medijum, one su potpuno izgubljene.

Primer zastarevanja digitalnog materijala BBC Domesday Project je trebalo da obeleži 900-tu godišnjicu originalnog dokumenta Domesday Book, koji predstavlja popis stanovništva Engleske iz XI veka. Smešten je na laserskim diskovima (Laser Vision Read-Only Memory LV-ROM format) – prethodnik CD-ROM Softver je pisan na programskom jeziku BCPL (prethodnik jezika C) Slike su bile u analognom formatu (pre nastanka JPEG) ...