Analizimi I te dhenave dhe pasiguria

Slides:



Advertisements
Similar presentations
MENDO! Mendo para se të bësh gjynah ndaj Krijuesit, Furnizuesit, ndaj Atij që të dhuroi çdo të mirë. Këto të mira janë aq të shumta, saqë nëse mundoheni.
Advertisements

Rruga për ahiret nuk kalohet me këmbë, por me zemër.
Algjebra Relacionale & SQL
Rishikimi i literatures Leksioni 7 1. Permbajtja e prezantimit Qellimi i rishikimit te literatures Procesi i rishikimit te literatures Instrumentet e.
Chapter 7 Segmentimi dhe Pozicionimi në Marketing
Lenda : Kontabiliteti Financiar
SHMU-2 VUSHTRRI Punim Seminarik Lënda:Informatikë Tema:Kartela Grafike
Leksioni nr 2 Data Base.
SH.M.U-2 Lënda:Informatikë Tema:Sistemi operativ (Windows 8)
Variablat Konstantet Strukturat e kontrollit Ciklet Tabelat (Arrays)
Universiteti Shtetëror i Tetovës Fakulteti i Shkencave Matematike-Natyrore Departamenti i Informatikës PROGRAMIM.
Universiteti Shtetëror i Tetovës Fakulteti i Shkencave Matematike-Natyrore Departamenti i Informatikës PROGRAMIM.
Universiteti Shtetëror i Tetovës Fakulteti i Shkencave Matematike-Natyrore Departamenti i Informatikës PROGRAMIM.
TIK 12 – Prof. Blerand Koshi
ALGORITMIKE Leksion 1.
Algoritmet e Renditjes
Universiteti i Prizrenit
Funksionet ne PHP PhD, MS, Under Leksion 8.
Bazat e te dhenave Elemente kryesore te MySQL-se
SHMU-2 Punim Seminarik Lënda: Informatikë
(Master) Migracioni i fuqise punetore: teoria dhe praktika Prof. as
Output: Paraqitja e njohurive
Universiteti i Prishtinës Fakulteti Ekonomik Studimet pasdiplomike / Master Lënda: Mikroekonomi e avancuar 3. Teoria e kërkesës.
Marketingu Online Prof. Msc. Zirije Hasani.
Organizimi i te dhenave dhe i Informacionit
Sh.M.U’’2’’ Lënda:TIK Tema:Viruset dhe antiviruset
Formatet e skedareve grafike dhe teknikat e kompresimit
Universiteti Shtetëror i Tetovës Fakulteti i Shkencave Matematike-Natyrore Departamenti i Informatikës PROGRAMIM.
JavaScript Leksion 8.
Lenda : Kontabiliteti Financiar
Kosova (nën UNSCR 1244) Trajnimi për Statistikat
Universiteti AAB Programi: PSIKOLOGJI STATISTIKE T-testi Për grupet e pavarura Për grupet e varura Dr.sc. Merita Shala.
Tema: Viruset dhe Antiviruset Sh. m
Algoritmet e Sortimit.
6. Unaza While dhe Do While
F U N K S I O N E T.
Sistemet Politike Krahasuese DEMOKRACITË
SH-M-U-2 Kl.9/4 Valon Ibishi Lënda:Informatikë Tema:Programi Excel Arsimtar:Muhamer Ujkani Vushtrri,2014.
LEKSION 9 Dizenjimi i database-it relacional.
Korrelacioni dhe Regresioni: vlerat e pritura
Pune me projekt Tema: Zgjidhja e problemeve nepermjet aplikimit te patches, updates dhe services packs. Punoi: xhensila cela.
Agregatët monetarë Ekzistojnë agregatë monetarë të ndryshëm që përfaqësojnë masa sasiore të ofertës agregate të parasë në një vend. Agregatët monetarë.
I Love my family!!!.
Perpunimi i stringjeve
ICES 3° International Conference on Educational Sciences 2014
Universiteti Shtetëror i Tetovës Fakulteti i Shkencave Matematike-Natyrore Departamenti i Informatikës PROGRAMIM.
(Master) Migracioni i fuqise punetore: teoria dhe praktika Prof. as
Universiteti AAB Programi: PSIKOLOGJI
SH.M.U 2 Vushtrri Sistemet operative te Winows XP Muhamer Ujkani
IRR (Norma Interne e Kthimit)
Punuar nga : Granit Bajrami
Kosova (nën UNSCR 1244) Trajnimi për Statistikat
Targetimi i elementeve specifike
E Drejta e Procedures Penale
Punuan: Sara Fusha Besarta Gashi
Degëzimet.
Puna me fajlla ne C++ Dr. Fisnik Dalipi.
Objektivat e Zhvillimit të Mileniumit Treguesit për Arsimin Liri Hajdari, MASH Tiranë, 21 Nëntor 2011.
Tema 2: Zgjedhja optimale
TIK 12 – Prof. Blerand Koshi
PROGRAMI PËR ARSIMIN FILLOR
Hyrje ne rrjete.
TIK 11 – Prof. Blerand Koshi
Modeli OSI protokollet e rrjetit
Degëzimet.
Microsoft office excel. Punoi:rron prokuplA Lenda:informatike arsimtar:muhamer ujkani tema:perdorimi I excel-it Klasa:9/5.
ANALIZA E TRANSAKSIONEVE NË BIZNES
Portet e kompjuterit Erza Ajeti IX-2
SMART TOURISM ENHACEMENT PROJECT
Operatorët.
Presentation transcript:

Analizimi I te dhenave dhe pasiguria

Ceshtjet Variabla te rastesishem Vleresimi Shembujt

Hyrje Arsyet e pasigurise Parashikimi Shembull Parashikimi per te nesermen, mbi bazen e inf sot Shembull Te dhena nga nje popullsi, por nuk dime dallimin e modeleve/shembujve brenda saj. Vlera te humbura ose te panjohura Duhet ose kemi nevoje ti dime keto vlera Psh. Te dhenat e censuruara

Hyrje Marreveshje me sigurine Probabiliteti situata te turbullta(Fuzzy) Teoria Probabilitetit v.s. perllogaritja Probabilititet Teoria Probabilitetit Lidhja me boten reale, paraqitja matematike Perllogaritja e Probabilititet Bazuar ne aksioma te pergjithshme dhe te mire percaktuara Qëllimi është të eksplorojme pasojat e ketyre aksiomave

Hyrje Probabiliteti eshte objektiv (frekuentist) Prob I nje ngjarje eshte percaktuar si limiti I hereve qe ngjarja ndodh ne nje situate identike Shembull Hedhja e monedhes Vlerësimi i probabilitetit që një klient në një supermarket do të blejë një send të caktuar

HYRJE Frekuentist v.s. Bayesian Bayesian(Probabiliteti eshte subjektiv) Karakterizimi eksplicit i të gjitha pasigurive, ku përfshijmë çdo parameter te vlerësuar nga të dhënat Probabiliteti është një shkallë individuale e besimit që një ngjarje e dhënë do të ndodhë Frekuentist v.s. Bayesian Hidh nje monedhe10 here, ku kemi 7 koka Frekuentisti, prob ehste P(A) = 7/10 Bayesian, prob eshte rreth P(A) = 0.5, pastaj të përdorin këtë ide paraprake dhe të dhënat, për të vlerësuar probabilitetin

Variabel rastesor Hartografia e tipareve te objekteve në një ndryshore/variabel që mund të marrë një sërë vlerash të mundshme nëpërmjet një procesi që i paraqitet vëzhguesve që të ketë një element të paparashikueshmërise Shembull Hedhja e modedhes(domain eshte bashkesia [koke , pile]) Numri i hereve qe hidhet monedha per te rene psh. koke Domain-i eshte integer Rezultati i Studentit Domain-i eshte nje bashkesi numrash integer ndermjet 0~100

Tiparet e nje variabli rastesor X eshte variabli rastesor dhe x eshte vlera e tij Domain-i ehste i fundem: Probabiliteti i funksionit masiv(mass function) eshte p(x) Domain-i eshte real: Probabiliteti i funksionit te densitetit(density function) eshte f(x) Pritshmerite e X

Variabli Multivariant rastesor Bashkesi variablash te ndryshem rastesor Nje vektor p-dimensional x={x1,..,xp} Funksioni lidhes:

Funksioni lidhes Shembull Hedhja e 2 zareve, X perfaqeson hedhjen e pare dhe Y tjetren Atehere p(x=3, y=3) = 1/6 * 1/6 = 1/36

Funksioni lidhes

Te dhenat e Supermarketit

Pavaresia e kushtezuar Problem i pergjithshem ne data mining eshte gjetja e marredhenieve ndermjet variablave A ka lidhje ndermjet blej A me blej B? Variablat jane te pavarur nqs nuk ka marredhenie, perndryshe ata jane te varur Te pavarur nqs p(x,y)=p(x)p(y)

Pavaresia e kushtezuar: me shume se 2 var X eshte Pavaresi e kushtezuar e Y Jepet Z nqs per gjithe vlerat X, Y, Z kemi:

Pavaresia e kushtezuar: me shume se 2 var Shembull P(F)=60/101 P(E∩F)=30/51 Tani E dhe F kane varesi Nqs rezultati i nje studenti !=100, atehere P(F|B)=60/100 P(E|B)=1/2 P(E∩F|B)=30/100=60/100*1/2 B e dhene me kusht E dhe F nuk kane varesi

Pavaresia e kushtezuar: me shume se 2 var Shembull Nqs rezultati i nje studenti == 100,atehere P(F|C)=0 P(E|C)=1 P(E ∩ F|C)=0=1*0 C e dhene me kusht,E dhe F nuk kane varesi Tani llogaritet P(E ∩ F)

Varesia dhe treguesit Matjet kovariante se si X dhe Y ndryshojnë së bashku I Madh pozitiv nëse X i madh është i lidhur me Y te madh dhe X të vogla me Y te vogla Negativ, nëse X i madh është i lidhur me Y te vogël Dy variabla mund të jenë te varur, por nuk ka korrelacion linear

Korrelacioni dhe shkaku Dy variabla mund të tregojne shumë pa një marrëdhënie shkakësore ndërmjet tyre Psh Gishti me njolla te verdha dhe kanceri i mushkërive mund të lidhen, por të lidhura rastesisht vetëm nga një variabël i tretë: pirja e duhanit Koha e Reagimit te Njeriut dhe të ardhurat e fituara janë të lidhura negativisht Nuk do të thotë njëra shkakton tjetër. Një var i trete,"mosha" është e lidhur rastesisht për të dyja

Mostrat dhe konkluzion statistikor Mostrat mund te perdoren per modelimin e te dhenave Nëse qëllimi është për të zbuluar devijimet e vogla te të dhënave, madhësia e mostrave do të ndikojë në rezultat

Roli i dyfishtë i Probabilitetit dhe Statistikave në analizën e të dhënave

Vleresimi Në konkluzion ne duam të bëjmë deklarata në lidhje me të gjithë popullatën nga e cila është tërhequr mostra Dy metoda të rëndësishme për llogaritjen/vleresimin e parametrave te një modeli jane: Vleresimi i shanseve maksimale Vlerësimi Bayesian

Tiparet e deshiruara te vleresuesve Le te jete  nje vleresim i parametrit Dy matje te cilesise se vleresuesit Vlera e pritur e vleresimit Ndryshimi ndermjet vleres se pritur dhe asaj te vertete Ndryshueshmeria e vleresimit

Gabimi mesatar ne katror Mesatarja e diferences ne katror ndermjet vl se vleresuesit dhe vl se vertete te parametrit

Gabimi mesatar ne katror

Vleresimi i shanseve maksimale(MLE) Metoda më e përdorur gjerësisht për vlerësimin parametër Funksioni i shanseve maksimale është probabiliteti që të dhënat D do të ketë lindur për një vlerë të caktuar θ Vlera e θ per te cilat te dhenat kane prob me te larte, eshte MLE

Shembuj te MLE Konsumatorët ose blejnë ose jo qumësht Ne duam vlerësimin e përqindjes se blerjeve Binomi me parameter te panjohur θ Mostrat x (1), ..., x (1000), ku r tregon blerjen e qumështit Duke supozuar pavarësinë e kushtëzuar, funksioni i shanseve është:

Log-likelihood Function Duam prob me te larte keshtu qe Log-likelihood function

Shembull MLE r tregon shitjet e qumeshtit per n kliente Θieshte prob qe qumeshti eshte blere nga nje klient rastesor Per 3 bashkesi te dhenash(data set) r = 7,n =10 r = 70,n =100 r = 700,n =1000 Pasiguria behet me e vogel me rritjen e n

Shembull MLE

Shanset ne nje shperndarje normale Per 1 ndryshueshmeri(variance),kuptim i panjohur Funksioni i shanseve(Likelihood function)

Shanset ne nje shperndarje normale Θeshte mesatarja e vleresuar Per 2 data set(rastesore) 20 pika te dhenash 200 pika te dhenash

Statistika të mjaftueshme(suficente) Sasia s (D) është një statistikë e mjaftueshme per θ nqs shansi l(θ) varet vetëm në të dhënat përmes s (D) asnjë statistikë tjetër e cila mund të llogaritet nga e njëjta mostër jep ndonjë informacion shtesë si vlera e parametrit

Intervali vleresimit Point estimate doesn’t convey uncertainty associated with it Interval estimate provide a confidence interval Pika e Vlerësimit nuk e përcjellë pasigurinë lidhur me të Interval i vleresimit siguron një interval besueshmërie

Shanset ne nje shperndarje normale

Mesatarja

Ndryshueshmeria

Qasja Bayesian Qasja Frequestiste Qasja Bayesian Parametrat e popullsisë janë fikse, por te panjohura E Dhënat është një mostër e rastit Ndryshueshmëria e brendshme qëndron në të dhënat Qasja Bayesian Te dhenat njihen Parametrat θ jane variabla te rastesishem θka nje shperndarje vlerash reflekton shkallen e besueshmerise ku mund te jene parametrat e vertete

Vleresimi Bayesian Modifikimi i realizuar nga rregulli Bayesian Ka prirje tek shperndarjet ne vend te nje vlere te vetme Nje vlere e vetme mund te arrihet nga nje mesatare ose mesore

Vleresimi Bayesian P(D) eshte konst e pavarur e θ Per nje bashkesi te dhenash te dhene D dhe nje model te vecante(model = shpërndarje paraprake dhe shanse) Në qoftë se ne kemi një besim të dobët në lidhje me parametrin para mbledhjes së të dhënave, paraprakisht të zgjidhni një të gjerë (normale me ndryshueshmeri të madhe)

Shembulli Binomial Variabel i vetem binar X : duam te vleresojme Paresore per parametrat ne [0, 1] eshte shperndarja Beta

Shembulli Binomial Funksioni i shanseve (Likelihood function) Kombinimi i shanseve me prior Marrim nje shperndarje tjeter Beta Me parametra

Beta(5,5) dhe Beta(145,145)

Beta(5,5)

Beta(45,50)

Avantazhet e qasjes Bayesian Mbajne njohuri të plotë të të gjithë pasigurisë problemit Llogaritin shpërndarje e plotë te radhes neθ Përditësimi i natyrshëm i shpërndarjes

Shperdarja e parashikuar ekuacion per modifikimin e paraardhesit dhe pasardhesit Emëruesi është quajtur shpërndarja parashikuese e D E dobishme për kontrollimin e modelit Nëse të dhënat e vëzhguara kanë vetëm një probabilitet të vogël atëherë ska gjasa të jetë e saktë

Shembull shperndarja Normale Supozoni x vjen nga një shpërndarje normale, me mesatare te panjohur θ, dhe ndryshueshmeri te njohur α Shpërndarja paraprake për θ eshte

Shembull shperndarja Normale

Jeffrey’s prior Reference parapreke Informacioni Fisher

Bashkimi paraprak(prior) p(θ) eshte bashkim paraprak per p(x| θ) nqs shperndarja pasardhese p(θ|x) eshte ne te njejten familje sikur priori p(θ) Beta tek Beta Shperndarja Normale tek Shperndarja Normale

Shembuj ne Data Mining Bashkesia e të dhënave duhet vetëm të përshtate analizat statistikore "Projektimi eksperimental" në statistika është i perqendruar me mënyrat optimale të mbledhjes së të dhënave. Minuesit e të dhënave nuk mund të kontrollojnë procesin e grumbullimit të të dhënave Të dhënat mund të jenë të përshtatshme në mënyrë ideale për qëllimet për të cilat ajo ishte mbledhur, por jo të mjaftueshme për perdorimet DM

Shembuj ne Data Mining Dy mënyra në të cilat lindin mostrat Baza e të dhënave është mostër e popullsisë Baza e të dhënave përmban të gjitha rastet, por analiza është bazuar në mostër Nuk është e përshtatshme kur ne duam të gjejmë shënime të pazakonta Pse te modelosh?? Vizatoni një mostër nga baza e të dhënave që na lejon të ndërtojme një model i cili pasqyron strukturën e të dhënave në bazën e të dhënave Efikasitet, shpejtësi, lehtësi Mostra duhet te jete përfaqësues i bazës së të dhënave në tërësi

Modelimi Sistematik Mundohuni që të sigurohet përfaqësimi Duke marrë një nga çdo dy shënime Mund të çojë në probleme kur ka rregulla në database Bashkesite e të dhënave, ku të dhënat janë të çifteve të martuara

Modelimi rastesor Shmangia e rregullave Modelimi Epsem Cdo e dhene ka prob te njejte zgjedhje

Ndryshueshmeria e mesatares ne modelimin rastesor Nëse variacioni popullsisë së madhësisë N është , variacioni i mesatares se një mostre të thjeshtë të rastit të madhësisë n pa zëvendësim është Zakonisht N >> n, kështu që termi i dytë është i vogël, dhe variacioni ulet ashtu si madhësia e mostrës rritet

Shembull 2000 pika, mesatarja popullsise = 0.0108 Shembull rastesor n = 10, 100, 1000, perserit 200 here

Shembull

Shtresezimi i modelimit rastesor Ndanë popullsinë ne nenpopullsi jo te mbivendosura apo shtresa Avantazhet Aktivizo realizimin e deklaratave në lidhje me secilin prej nenpopullsive ne vecanti Për shembull, një nga kompanitë e kartës së kreditit ku ne punojmë me kategorizim te transaksioneve në 26 kategori: supermarket, stacioni i gazit, dhe kështu me radhë

Modelimi me shtresa/Cluster Çdo grumbull përmban shumë elemente Modele te thjeshta rastesore në elemente nuk jane te pershtatshme Zgjidhni grumbullin/shtresen, jo elementin