TRETMAN NEDOSTAJUĆIH PODATAKA

Slides:



Advertisements
Similar presentations
Osnovi audiotehnike Audio signali. Signal govora.
Advertisements

Prof: doc.dr. Samir Lemeš student: Samir Hrnjić. System restore je komponenta Microsoftovih operativnih sistema Windows Serveri ne podržavaju opciju System.
Strange jobs Jelena Maksimovic VIII-3 Jovana Maksimovic VIII-3 Ljubica Radenkovic VIII-3 Milena Jovanovic VIII-3.
TENSES: PAST SIMPLE and PAST CONTINUOUS Prošla vremena: forma i upotreba Past simple ili obično prošlo vreme gradi se tako što se na infinitiv glagola.
Isti upit iskazan na različite načine
Kvantitativni metodi u ekonomiji -Ekonometrija-
ASPECT RATIO PAŠIĆ ANELA.
Stabilnost, promjena i koherentnost ličnosti
Pretraživanje interneta
NEPARAMETRIJSKI TESTOVI
Petlje WHILE – WEND.
FLASH MEMORIJE ili Flash EEPROM Nešto o flash memorijama.
EXPLORE - testovi normalnosti
KONTROLE.
Algoritamske/programske strukture
v.as.mr. Samir Lemeš Univerzitet u Zenici
Pojam DBMS. Relacione baze podataka
STATISTIČKI TESTOVI (TESTOVI ZNAČAJNOSTI)
IP šema adresiranja.
CheckBox RadioButton RadioGroup
Naredbe ciklusa.
OPERACIONI POJAČAVAČI SA DIFERENCIJALNIM ULAZOM I IZLAZOM
REPEAT…UNTIL Naredbe ciklusa.
Internet mreže, FTN - KZI
Konveksni omotač (red O(n log (n)))
Analiza pomoću finansijskih pokazatelje
Explore-plots Katarina Jeremić 143/2011 Jovana Vulović 33/2011
KREIRANJE OBJEKATA.
Uvod u programiranje - matematika – X predavanje
RAZGRANATA STRUKTURA Zadaci i rešenja
RAZGRANATA STRUKTURA Zadaci i rešenja
Arrays and strings -2 (nizovi i znakovni nizovi)
Reference ćelije i opsega
LABORATORIJSKA VEŽBA VEŽBA 4
Elektrotehnički fakultet – Podgorica Operativni sistemi
14 UNUTRAŠNJE I ANONIMNE KLASE
Arrays and strings -1 (nizovi i znakovni nizovi)
SQL. SQL SQL Structured Query Language (SQL) predstavlja programski jezik koji je projektovan za potrebe pretraživanja i upravljanja podacima u sistemima.
Struktura MAC adrese i Ethernet okvira
Naredba Case Višestruko grananje.
Organizacija sistema zasnovana na
Regional Center for Talented Youth Belgrade II
Upravljanje marketingom u bankarstvu
M-datoteke.
Element form Milena Kostadinović.
Računarska grafika.
Obrada slike na računaru
SQL Server 2008 R2 Master Data Services
RUTIRANJE VI POGLAVLJE.
Ključne reči,identifikatori, konstante i promenljive
Fizičke strukture podataka i pristupne metode: indeksiranje
Articles.
MATEMATIČKI FAKULTET, UNIVERZITET U BEOGRADU
Osnovni simboli jezika Pascal
Do While ... Loop struktura
MagistralA (bus) Milan Milovanovic I6.
Home - Bullets & Numbering -
EU Montenegro Inclusive Education Services Project (EU - MIESP)
Klasifikacija i stablo odlučivanja uz r
Sustavi za pracenje i vođenje procesa STATEFUL INSPECTION FIREWALL
BLOOMOVA TAKSONOMIJA I
Skup instrukcija procesora
Fakultet elektrotehnike i računarstva
Tanja Buzina Nacionalna i sveučilišna knjižnica, Zagreb
S.W.O.T. Zagreb, 27. I
Donošenje odluka o karijeri
Podrška darovitima u visokom obrazovanju –
Dvostruka autentifikacija
Ponavljanje Pisana provjera
Vježbenica 2: struktura grananja – 2.dio
Presentation transcript:

TRETMAN NEDOSTAJUĆIH PODATAKA Prof. dr Jasna Soldić-Aleksić Ekonomski fakultet, Beograd

PROBLEM NEDOSTAJUĆIH PODATAKA Tretira se u pret-procesiranju podataka (preliminarna analiza podataka) U literaturi preovlađuje sledeći stav: ako je procenat nedostajućih podataka manji od 1% smatra se da to generalno nije veliki problem; 1-5% nedostajućih podataka može se rešiti primenom uobičajenih tradicionalnih tehnika, 5-15% zahteva sofisticirane tehnike, a preko 15% može ozbiljno da utiče na interpretaciju rezultata.

MEHANIZMI GENERISANJA NEDOSTAJUĆIH PODATAKA 1. Nedostajući podaci koji se javljaju u potpunosti na slučajan način - (Missing completely at random - MCAR). Ovo je najviši nivo slučajnosti pojavljivanja nedostajućih podataka. Kod ovog mehanizma, verovatnoća nedostajućeg podatka za bilo koji atribut ne zavisi od same vrednosti koja nedostaje i ne zavisi od bilo koje druge promenljive, kao ni od razloga za nedostajanje, koji je u potpunosti slučajan. U ovom slučaju bilo koja metoda koja se bavi nedostajućim podacima može biti primenjena bez bojazni od unošenja pristrasnosti u analizu. Međutim, ovaj mehanizam se relativno retko javlja u praktičnim istraživanjima, i obično se tretira u statističkoj teoriji. 2. Slučajan način pojavljivanja nedostajućih podataka - (Missing at random - MAR). Kod ovog mehanizma verovatnoća nedostajućeg podatka za jedan atribut ne zavisi od same vrednosti atributa, ali zavisi od poznatih vrednosti drugih atributa. Ovaj mehanizam se često sreće u praksi i, obično kada se govori o nedostajućim podacima, podrazumeva se da je reč o njemu. 3. Mehanizam generisanja nedostajućih podataka nije slučajan – (Not missing at random - NMAR). U ovom slučaju nedostajući podatak zavisi od same vrednosti koja nedostaje.

KAKO PROVERITI KOJI JE MEHANIZAM NEDOSTAJUĆIH PODATAKA PRISUTAN? Postoji nekoliko procedura pomoću kojih se može odrediti koji je mehanizam nedostajućih podataka prisutan. Naime, za svaku promenljivu, može se izvršiti provera da li postoji značajna razlika u podacima između pojedinaca (u opštem slučaju opservacija) koji su, na primer, odgovorili na neko pitanje (pitanja) i pojedinaca koji nisu odgovorili na to pitanje (ili pitanja). U tom smislu može se primeniti niz statističkih testova – t-testova ili nekih neparametarskih testova, kao i nešto složenija analiza, kao što je na primer, logistička regresiona analiza. U okviru ove analize može se oceniti da li postoje značajne razlike u vrednosti više promenljivih, između ispitanika koji su odgovorili na neko pitanje i ispitanika koji nisu odgovorili na pitanje. Ako se dobiju rezultati koji nisu statistički značajni, radi se o slučajno nedostajućim podacima. U suprotnom, može se zaključiti da postoji statistički značajna razlika u vrednostima neke promenljive za opservacije sa nedostajućim podacima i opservacije koje imaju kompletne podatke. Takođe može se primeniti Little-ov MCAR test, koji se zasniva na χ2 statistici i kod koga je nulta hipoteza da se radi o MCAR mehanizmu nedostajućih podataka. Ovaj test je uključen u standardne statističke računarske pakete. U IBM SPSS paketu pojavljuje se u okviru MVA (Missing Value Analysis) procedure.

ZNAČAJNE METODE ZA TRETIRANJE NEDOSTAJUĆIH PODATAKA Brisanje opservacija - brisanje opservacije sa nedostajućim podacima od analize do analize (casewise deletion, pairwise deletion), - ili brisanje opservacije koja ima bilo koju nedostajuću vrednost (listwise deletion). Metode supstitucije nedostajućih podataka jednom vrednošću (single imputation) 1. Zamena nedostajućih vrednosti sa prosečnom vrednošću (modusom) 2. Hot (cold) deck imputation (HDI) - ima samo istorijski značaj 3. Regresiona metoda, stohastička regresija (uključen stohastički član) Radi se o relativno jednostavnim metodama. Glavni nedostatak: pristrasno ocenjivanje nepoznatih parametara

Statistički najprihvatljivije metode: Metoda “maksimizacije očekivanja” (Expectation Maximization - EM method) Metoda Višestrukog unošenja podataka – Multiple Imputation (MI) - Rubin (1987), Mnoge studije su pokazale da MI metoda daje veoma dobre rezultate (Wayman, C. J, 2003). Prednosti ove metode su: nepristrasne ocene parametara, robusnost metode na odstupanje od normalne raspodele podataka, neosetljivost na veličinu uzorka, a takođe i otpornost na visok procenat prisustva nedostajućih podataka. Dalje, ova metoda je računarski jednostavnija u odnosu na druge statistički zasnovane metode, kao što je metoda ocenjivanja pomoću maksimalne verodostojnosti. Rubin, D.B., (1976) Inference and Missing Data. Biometrika 63 581-592 Rubin, D. B. (1987) Multiple Imputation for Nonresponse in Surveys. New York: John Wiley & Sons. Little, R.J.A. and Rubin, D.B. (2002) Statistical Analysis with Missing Data, 2nd Edition, John Wiley and Sons, New York. Wayman, C. Jeffrey, Multiple Imputation For Missing Data: What Is It And How Can I Use It?, 2003. http://coedpages.uncc.edu/cpflower/wayman_multimp_aera2003.pdf.

Algoritmi mašinskog učenja Inputacije K najbljižih suseda - K-Nearest Neighbor Imputation (KNN), koja koristi algoritam K najbližih suseda za ocenjivanje i zamenu nedostajućih vrednosti. Glavna prednost ove metode ogleda se u tome što se ne mora pripremati prediktivni model za svaki atribut sa nedostajućim podacima, a takođe, ovaj algoritam se može primeniti za ocenjivanje i kvantitativnih i kvalitativnih atributa: za kvantitativne atribute koristi se prosećna vrednost atributa za K najbližih suseda, a za kvalitativni atribut koristi se vrednost sa najvećim učešćem kod K najbližih suseda. Glavni nedostatak ove metode ogleda se u tome što algoritam u potrazi za najsličnijim opservacijama, pretražuje ceo prostor podataka, što može da bude veoma zahtevno. Takođe, postavlja se pitanje određivanja broja susednih opservacija, tj. broja K i izbora mere sličnosti. Iz oblasti metoda neuronskih mreža, poznati algoritam veštačkih neuronskih mreža Self-Organizing Mapping (SOM), koji se koristi za vuzualizaciju i grupisanje podataka, takođe ima ugrađeni mehanizam za tretiranje nedostajućih podataka. Kod drugog algoritma neuronskih mreža – Support Vector Machines - SVM tretman nedostajućih podataka je takođe relativno jednostavan. SVM je algoritam za nelinearni regresiju i klasifikaciju. Kako se radi o neparametarskom regresionom pristupu, faktički se predviđene vrednosti pomoću ovog modela uzimaju za imputaciju nedostajućih podataka. Slična je situacija kod jednog od najčešće korišćenog algoritma veštačkih neuronskih mreža Milti-Layer Perceptron – MLP, kod koga se mreža koristi da generiše predviđanja za slogove sa nedostajućim vrednostima.