Download presentation
Presentation is loading. Please wait.
1
Analizimi I te dhenave dhe pasiguria
2
Ceshtjet Variabla te rastesishem Vleresimi Shembujt
3
Hyrje Arsyet e pasigurise Parashikimi Shembull
Parashikimi per te nesermen, mbi bazen e inf sot Shembull Te dhena nga nje popullsi, por nuk dime dallimin e modeleve/shembujve brenda saj. Vlera te humbura ose te panjohura Duhet ose kemi nevoje ti dime keto vlera Psh. Te dhenat e censuruara
4
Hyrje Marreveshje me sigurine
Probabiliteti situata te turbullta(Fuzzy) Teoria Probabilitetit v.s. perllogaritja Probabilititet Teoria Probabilitetit Lidhja me boten reale, paraqitja matematike Perllogaritja e Probabilititet Bazuar ne aksioma te pergjithshme dhe te mire percaktuara Qëllimi është të eksplorojme pasojat e ketyre aksiomave
5
Hyrje Probabiliteti eshte objektiv (frekuentist)
Prob I nje ngjarje eshte percaktuar si limiti I hereve qe ngjarja ndodh ne nje situate identike Shembull Hedhja e monedhes Vlerësimi i probabilitetit që një klient në një supermarket do të blejë një send të caktuar
6
HYRJE Frekuentist v.s. Bayesian
Bayesian(Probabiliteti eshte subjektiv) Karakterizimi eksplicit i të gjitha pasigurive, ku përfshijmë çdo parameter te vlerësuar nga të dhënat Probabiliteti është një shkallë individuale e besimit që një ngjarje e dhënë do të ndodhë Frekuentist v.s. Bayesian Hidh nje monedhe10 here, ku kemi 7 koka Frekuentisti, prob ehste P(A) = 7/10 Bayesian, prob eshte rreth P(A) = 0.5, pastaj të përdorin këtë ide paraprake dhe të dhënat, për të vlerësuar probabilitetin
7
Variabel rastesor Hartografia e tipareve te objekteve në një ndryshore/variabel që mund të marrë një sërë vlerash të mundshme nëpërmjet një procesi që i paraqitet vëzhguesve që të ketë një element të paparashikueshmërise Shembull Hedhja e modedhes(domain eshte bashkesia [koke , pile]) Numri i hereve qe hidhet monedha per te rene psh. koke Domain-i eshte integer Rezultati i Studentit Domain-i eshte nje bashkesi numrash integer ndermjet 0~100
8
Tiparet e nje variabli rastesor
X eshte variabli rastesor dhe x eshte vlera e tij Domain-i ehste i fundem: Probabiliteti i funksionit masiv(mass function) eshte p(x) Domain-i eshte real: Probabiliteti i funksionit te densitetit(density function) eshte f(x) Pritshmerite e X
9
Variabli Multivariant rastesor
Bashkesi variablash te ndryshem rastesor Nje vektor p-dimensional x={x1,..,xp} Funksioni lidhes:
10
Funksioni lidhes Shembull
Hedhja e 2 zareve, X perfaqeson hedhjen e pare dhe Y tjetren Atehere p(x=3, y=3) = 1/6 * 1/6 = 1/36
11
Funksioni lidhes
12
Te dhenat e Supermarketit
13
Pavaresia e kushtezuar
Problem i pergjithshem ne data mining eshte gjetja e marredhenieve ndermjet variablave A ka lidhje ndermjet blej A me blej B? Variablat jane te pavarur nqs nuk ka marredhenie, perndryshe ata jane te varur Te pavarur nqs p(x,y)=p(x)p(y)
14
Pavaresia e kushtezuar: me shume se 2 var
X eshte Pavaresi e kushtezuar e Y Jepet Z nqs per gjithe vlerat X, Y, Z kemi:
15
Pavaresia e kushtezuar: me shume se 2 var
Shembull P(F)=60/101 P(E∩F)=30/51 Tani E dhe F kane varesi Nqs rezultati i nje studenti !=100, atehere P(F|B)=60/100 P(E|B)=1/2 P(E∩F|B)=30/100=60/100*1/2 B e dhene me kusht E dhe F nuk kane varesi
16
Pavaresia e kushtezuar: me shume se 2 var
Shembull Nqs rezultati i nje studenti == 100,atehere P(F|C)=0 P(E|C)=1 P(E ∩ F|C)=0=1*0 C e dhene me kusht,E dhe F nuk kane varesi Tani llogaritet P(E ∩ F)
17
Varesia dhe treguesit Matjet kovariante se si X dhe Y ndryshojnë së bashku I Madh pozitiv nëse X i madh është i lidhur me Y te madh dhe X të vogla me Y te vogla Negativ, nëse X i madh është i lidhur me Y te vogël Dy variabla mund të jenë te varur, por nuk ka korrelacion linear
18
Korrelacioni dhe shkaku
Dy variabla mund të tregojne shumë pa një marrëdhënie shkakësore ndërmjet tyre Psh Gishti me njolla te verdha dhe kanceri i mushkërive mund të lidhen, por të lidhura rastesisht vetëm nga një variabël i tretë: pirja e duhanit Koha e Reagimit te Njeriut dhe të ardhurat e fituara janë të lidhura negativisht Nuk do të thotë njëra shkakton tjetër. Një var i trete,"mosha" është e lidhur rastesisht për të dyja
19
Mostrat dhe konkluzion statistikor
Mostrat mund te perdoren per modelimin e te dhenave Nëse qëllimi është për të zbuluar devijimet e vogla te të dhënave, madhësia e mostrave do të ndikojë në rezultat
20
Roli i dyfishtë i Probabilitetit dhe Statistikave në analizën e të dhënave
21
Vleresimi Në konkluzion ne duam të bëjmë deklarata në lidhje me të gjithë popullatën nga e cila është tërhequr mostra Dy metoda të rëndësishme për llogaritjen/vleresimin e parametrave te një modeli jane: Vleresimi i shanseve maksimale Vlerësimi Bayesian
22
Tiparet e deshiruara te vleresuesve
Le te jete nje vleresim i parametrit Dy matje te cilesise se vleresuesit Vlera e pritur e vleresimit Ndryshimi ndermjet vleres se pritur dhe asaj te vertete Ndryshueshmeria e vleresimit
23
Gabimi mesatar ne katror
Mesatarja e diferences ne katror ndermjet vl se vleresuesit dhe vl se vertete te parametrit
24
Gabimi mesatar ne katror
25
Vleresimi i shanseve maksimale(MLE)
Metoda më e përdorur gjerësisht për vlerësimin parametër Funksioni i shanseve maksimale është probabiliteti që të dhënat D do të ketë lindur për një vlerë të caktuar θ Vlera e θ per te cilat te dhenat kane prob me te larte, eshte MLE
26
Shembuj te MLE Konsumatorët ose blejnë ose jo qumësht
Ne duam vlerësimin e përqindjes se blerjeve Binomi me parameter te panjohur θ Mostrat x (1), ..., x (1000), ku r tregon blerjen e qumështit Duke supozuar pavarësinë e kushtëzuar, funksioni i shanseve është:
27
Log-likelihood Function
Duam prob me te larte keshtu qe Log-likelihood function
28
Shembull MLE r tregon shitjet e qumeshtit per n kliente
Θieshte prob qe qumeshti eshte blere nga nje klient rastesor Per 3 bashkesi te dhenash(data set) r = 7,n =10 r = 70,n =100 r = 700,n =1000 Pasiguria behet me e vogel me rritjen e n
29
Shembull MLE
30
Shanset ne nje shperndarje normale
Per 1 ndryshueshmeri(variance),kuptim i panjohur Funksioni i shanseve(Likelihood function)
31
Shanset ne nje shperndarje normale
Θeshte mesatarja e vleresuar Per 2 data set(rastesore) 20 pika te dhenash 200 pika te dhenash
32
Statistika të mjaftueshme(suficente)
Sasia s (D) është një statistikë e mjaftueshme per θ nqs shansi l(θ) varet vetëm në të dhënat përmes s (D) asnjë statistikë tjetër e cila mund të llogaritet nga e njëjta mostër jep ndonjë informacion shtesë si vlera e parametrit
33
Intervali vleresimit Point estimate doesn’t convey uncertainty associated with it Interval estimate provide a confidence interval Pika e Vlerësimit nuk e përcjellë pasigurinë lidhur me të Interval i vleresimit siguron një interval besueshmërie
34
Shanset ne nje shperndarje normale
35
Mesatarja
36
Ndryshueshmeria
37
Qasja Bayesian Qasja Frequestiste Qasja Bayesian
Parametrat e popullsisë janë fikse, por te panjohura E Dhënat është një mostër e rastit Ndryshueshmëria e brendshme qëndron në të dhënat Qasja Bayesian Te dhenat njihen Parametrat θ jane variabla te rastesishem θka nje shperndarje vlerash reflekton shkallen e besueshmerise ku mund te jene parametrat e vertete
38
Vleresimi Bayesian Modifikimi i realizuar nga rregulli Bayesian
Ka prirje tek shperndarjet ne vend te nje vlere te vetme Nje vlere e vetme mund te arrihet nga nje mesatare ose mesore
39
Vleresimi Bayesian P(D) eshte konst e pavarur e θ
Per nje bashkesi te dhenash te dhene D dhe nje model te vecante(model = shpërndarje paraprake dhe shanse) Në qoftë se ne kemi një besim të dobët në lidhje me parametrin para mbledhjes së të dhënave, paraprakisht të zgjidhni një të gjerë (normale me ndryshueshmeri të madhe)
40
Shembulli Binomial Variabel i vetem binar X : duam te vleresojme
Paresore per parametrat ne [0, 1] eshte shperndarja Beta
41
Shembulli Binomial Funksioni i shanseve (Likelihood function)
Kombinimi i shanseve me prior Marrim nje shperndarje tjeter Beta Me parametra
42
Beta(5,5) dhe Beta(145,145)
43
Beta(5,5)
44
Beta(45,50)
45
Avantazhet e qasjes Bayesian
Mbajne njohuri të plotë të të gjithë pasigurisë problemit Llogaritin shpërndarje e plotë te radhes neθ Përditësimi i natyrshëm i shpërndarjes
46
Shperdarja e parashikuar
ekuacion per modifikimin e paraardhesit dhe pasardhesit Emëruesi është quajtur shpërndarja parashikuese e D E dobishme për kontrollimin e modelit Nëse të dhënat e vëzhguara kanë vetëm një probabilitet të vogël atëherë ska gjasa të jetë e saktë
47
Shembull shperndarja Normale
Supozoni x vjen nga një shpërndarje normale, me mesatare te panjohur θ, dhe ndryshueshmeri te njohur α Shpërndarja paraprake për θ eshte
48
Shembull shperndarja Normale
49
Jeffrey’s prior Reference parapreke Informacioni Fisher
50
Bashkimi paraprak(prior)
p(θ) eshte bashkim paraprak per p(x| θ) nqs shperndarja pasardhese p(θ|x) eshte ne te njejten familje sikur priori p(θ) Beta tek Beta Shperndarja Normale tek Shperndarja Normale
51
Shembuj ne Data Mining Bashkesia e të dhënave duhet vetëm të përshtate analizat statistikore "Projektimi eksperimental" në statistika është i perqendruar me mënyrat optimale të mbledhjes së të dhënave. Minuesit e të dhënave nuk mund të kontrollojnë procesin e grumbullimit të të dhënave Të dhënat mund të jenë të përshtatshme në mënyrë ideale për qëllimet për të cilat ajo ishte mbledhur, por jo të mjaftueshme për perdorimet DM
52
Shembuj ne Data Mining Dy mënyra në të cilat lindin mostrat
Baza e të dhënave është mostër e popullsisë Baza e të dhënave përmban të gjitha rastet, por analiza është bazuar në mostër Nuk është e përshtatshme kur ne duam të gjejmë shënime të pazakonta Pse te modelosh?? Vizatoni një mostër nga baza e të dhënave që na lejon të ndërtojme një model i cili pasqyron strukturën e të dhënave në bazën e të dhënave Efikasitet, shpejtësi, lehtësi Mostra duhet te jete përfaqësues i bazës së të dhënave në tërësi
53
Modelimi Sistematik Mundohuni që të sigurohet përfaqësimi
Duke marrë një nga çdo dy shënime Mund të çojë në probleme kur ka rregulla në database Bashkesite e të dhënave, ku të dhënat janë të çifteve të martuara
54
Modelimi rastesor Shmangia e rregullave Modelimi Epsem
Cdo e dhene ka prob te njejte zgjedhje
55
Ndryshueshmeria e mesatares ne modelimin rastesor
Nëse variacioni popullsisë së madhësisë N është , variacioni i mesatares se një mostre të thjeshtë të rastit të madhësisë n pa zëvendësim është Zakonisht N >> n, kështu që termi i dytë është i vogël, dhe variacioni ulet ashtu si madhësia e mostrës rritet
56
Shembull 2000 pika, mesatarja popullsise = 0.0108
Shembull rastesor n = 10, 100, 1000, perserit 200 here
57
Shembull
58
Shtresezimi i modelimit rastesor
Ndanë popullsinë ne nenpopullsi jo te mbivendosura apo shtresa Avantazhet Aktivizo realizimin e deklaratave në lidhje me secilin prej nenpopullsive ne vecanti Për shembull, një nga kompanitë e kartës së kreditit ku ne punojmë me kategorizim te transaksioneve në 26 kategori: supermarket, stacioni i gazit, dhe kështu me radhë
59
Modelimi me shtresa/Cluster
Çdo grumbull përmban shumë elemente Modele te thjeshta rastesore në elemente nuk jane te pershtatshme Zgjidhni grumbullin/shtresen, jo elementin
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.