Presentation is loading. Please wait.

Presentation is loading. Please wait.

FIF 1. Forgangur Af reiknilíkönum og óvissu: Að fella mælingar að líkani Fyrirlestur #2 Haustönn 2006 Einar Hjörleifsson.

Similar presentations


Presentation on theme: "FIF 1. Forgangur Af reiknilíkönum og óvissu: Að fella mælingar að líkani Fyrirlestur #2 Haustönn 2006 Einar Hjörleifsson."— Presentation transcript:

1 FIF 1. Forgangur Af reiknilíkönum og óvissu: Að fella mælingar að líkani Fyrirlestur #2 Haustönn 2006 Einar Hjörleifsson

2 © einar 2 Af óvissu “It’s ok to be uncertain. It’s ok to be ignorant. But it’s never ok to be certain when you are, in fact, uncertain or ignorant.” Dr. Donald J. Orth Allar mælingar og öll líkön fela í sér óvissu. Viðfangsefnið vísindamannsins er að meta og lýsa óvissunni. Viðfangsefni stjórnenda er ákvörðunartaka í ljósi óvissunar. Oft þarf að taka ákvarðanir áður en við höfum mælingar til að byggja ákvarðanir á!

3 © einar 3 Af orðnotkun ENSKA Uncertainty Error Confidence interval Deviation ÍSLENSKA Óvissa Skekkja Öryggismörk Frávik Sum hugtökin hafa með vissum hætti innbyggða neikvæða merkingu. Upplýsingagildið sem í þeim felast segja hinsvegar oft meira en meðaltalið eða miðgildið sem oftast er vitnað til.

4 © einar 4 Að fella gögn að líkani Þrjú skref: Mælingar úr einhverju nátturlegu mengi Formlegt tölfræðilegt líkan með stuðlum sem á að meta Einhvert skilyrði til þess að meta hversu vel líkanið fylgir mæligögnunum miðað við mismundi gildi stuðlanna. Skilyrðið er oft lágmarksumma frávika.

5 © einar 5 Hvað er reiknilíkan? Tölfræðileg greining á mælingum þar sem stuðlar í ákveðinni jöfnu eru metnir þannig að mæld gildi falli sem best að spágildum líkansins samkvæmt ákveðnum skilyrðum. Hin kunnulega línulega aðhvarfsgreining er ekkert annað en ákveðið mat á stuðlum í mjög einföldu reiknilíkani. Mat á meðaltali með staðalskekkju er einnig líkan “Reiknilíkan Hafrannsóknastofnunarinnar” er í eðli sínu sambærilegt, bara flóknara.

6 © einar 6 Bestun – “Goodness of fit” Mælt gildi = Spáð gildi + Frávik Y i = Ŷ i +  i Spáð gildi: Byggt á einhverju formlegu stærðfræðilegu líkani i stendur hér fyrir sérhverja mælingu, i = 1,2,3, …n Frávik = Mælt gildi – Spáð gildi  i  = Y i – Ŷ i Þar sem frávikið er í raun mæling á fjarlægð á spáðu gildi miðað við mælda gildið þá er það augljóslega góður mælikvarði á bestun, þ.e. hversu vel líkanið fellur að mæligögnunum.

7 © einar 7 Myndræn framsetning á fráviki Spáð gildi ŶiŶi YiYi XiXi Mælt gildi ii

8 © einar 8 Bestun: Summa frávika 2  i = Mælt gildi – Spáð gildi Frávikin eru bæði jákvæð og neikvæð gildi Því er ekki hægt að nota einfalda summu frávikanna í bestun Frávikin sett í annað veldi leysir vandamálið fyrir neikvæðu gildin Stærðfræðileg mjög hentugt SS =  (Mælt –Spáð) 2 =   i 2 Bestun felur í sér að finna þau gildi fyrir stuðlana í reiknilíkaninu sem að gefa lægstu summu frávika 2 Það fylgja þessu ákveðnar forsendur: Frávikin eru normaldreifð um spáða gildið með sömu dreifingu (  2 ) fyrir öll mældu gildin. A stærðfræðimáli er slíkt skrifað sem:  ~ N(0,  2 )

9 © einar 9 Frávikin í öðru veldi

10 © einar 10 Summa frávika 2

11 © einar 11 Grunnskilyrði reiknilíkana Óháð því hversu flókið sjálft líkanið er, þá er gunnskilyrðið fyrir bestun alltaf hið sama: SS =  (Mælt – Spáð) 2 Það eina sem er flókið er aðferðin sem að notuð er til þess að meta stuðlana sem að uppfylla skilyrðið um lágmarkssummu frávika.

12 FIF Dæmi: Línuleg bestun með tveimur stuðlum

13 © einar 13 Mælingarnar Tíu fiskar (n=10) með eftirfarandi mælingum Þyngd fisks Hrognafjöldi Einföld rýni: Því þyngri sem fiskurinn er því fleiri eru hrognin. Líklegt að einfalt línulegt líkan með tveimur stuðlum: (hallatölu og skurðpunkti) dugi til þess að lýsa sambandinu milli þyngdar og hrognafjölda.

14 © einar 14 Líkanið á stærðfræðimáli Á stærðfræðimáli skrifum við: Mælt gildi = Spáð gildi + frávik Y i = Ŷ i +  i Y i = a + b * X i +  i Hrognafjöldi i = a + b * Þyngd i + frávik Fyrir þetta líkan er bestunin: SS=  (Mælt i – Spáð i ) 2 =  ( Y i – Ŷ i ) 2 =  ( Y i – [a+ b * X i ] ) 2 =  (Hrognafjöldi i – [a + b * Þyngd i ]) 2 Mismunandi tölugildi á stuðlunum a og b gefa mismunandi tölugildi á SS. Markmiðið er að finna þau gildi fyrir a og b sem að gefa lægsta SS gildið.

15 © einar 15 Blað og blýantsútreikningur

16 © einar 16 Gildin á a og b ráða gildinu á SS

17 © einar 17 SS gildið sem fall af b Breyting á hallatölunni (b) leiðir til mismunandi SS-gilda. Fyrir gefinn skurðpunkt (a), þá er aðeins ein hallatala (b) sem gefur lægsta SS-gildið.

18 © einar 18 SS gildið sem fall af a Breyting á skurðpunkti (a) leiðir til mismunandi SS-gilda. Fyrir gefna hallatölu (b), þá er aðeins einn skurðpunktur (b) sem gefur lægsta SS-gildið.

19 © einar 19 SS gildið sem fall af a og b Aðeins eitt sett af tölugildum fyrir a og b gefur lægsta SS.

20 © einar 20 Númerísk leit að lágmarki Með nútíma tölvum er auðvelt framkvæma leit að gildum á stuðlum sem að uppfylla skilyrði um lágmörkun frávika. Fyrir okkar dæmi þá eru prófuð mismunandi gildi af a og b og SS reiknað út. Skilyrðið er áfram það sama: Leitað er eftir þeim gildum af stuðlunum sem að gefa lægsta SSE. Í Excel er þetta gert sjálfkrafa með “Solver”. Þó að grunnprinsippið sé einfalt þá er aðferðarfræðin flókin.

21 © einar 21 Analýtisk lausn á lágmörkun Hægt er að sýna fram á að lausn á a og b sem uppfylla skilyrðið um að SSE er lágmarkað er eftirfarandi: Í Excel má setja upp reiknigrind og nota ofangreindar formúlur til að meta a & b.

22 © einar 22 Af hverju að nota númeríska leit? Þó svo að til sé analýtísk lausn fyrir einföld líkön þá er slíkt oft ekki fyrir hendi fyrir flóknari líkön. Í þeim tilfellum er eina leiðin að leita að lágmörkun með númerískum hætti. Ókostir við númeríska leit: Getur oft tekið talsverðan tíma Getum lent í því að fá “falska” lausn vegna staðbundinna lágmarka

23 © einar 23 Staðbundið lágmark Raunveruleg lausn

24 © einar 24 Forsendur lágmörkunar Mikilvægt er að muna að þegar við notum lágmörkun á kvaðratfrávikum þá er gert ráð fyrir að frávikin séu normaldreifð um spáða gildið með meðaltal NÚLL og drefingu samkvæmt  2 :  = N( ,  2 ) Ofangreint tákn stendur fyrir frávik með meðaltal  (=0) og dreifingu (variance)  2.

25 © einar 25 Normaldreifing frávika Dreifing frávika á y eru þau sömu, óháð x-gildi

26 © einar 26 Ef ekki normaldreifing? Líkön eru oft notuð án þess að hugað sé að forsendum á bak við dreifingu frávika. Þetta á sérstaklega við þegar hugað er að öryggismörkum (t.d. staðalfrávikinu). Til þess að gefnir útreikningar hafi einhverja merkingu þá verða forsendurnar að standa. Ef ekki normaldreifð gögn, hvað þá? Oft hægt að leysa það mál með því að umskrifa jöfnurnar, t.d. þannig að mælingar verða á lógarithmískum kvarða.

27 © einar 27 Dreifing frávika Að skoða dreifingu frávika er mikilvægur hluti í allri greiningu gagna. Slík greining gefur oft til kynna að það líkan sem að menn gefa sér í upphafi sé í raun ófullnægjandi. Í raunveruleikanum (þ.e. utan dæmanna sem að okkur eru gefin í grunntölfræðikúrsum) þá endum við oft með líkan sem að fullnægir ekki að fullu skilyrðum um dreifingu frávika.

28 © einar 28 Mæligögnin

29 © einar 29 Setjum upp þrjú hugsanleg líkön

30 © einar 30 Líkönin felld að gögnunum Hvaða líkan er “best”?

31 © einar 31 Frávik sem fall af N (x-ás) Power líkanið uppfyllir best skilyrðið um að frávikin séu óháð stærð mæligildisins N (x-ás).

32 FIF Einfalt meðaltal og normaldreifing

33 © einar 33 Hvað er meðaltal? “Í seiðaleiðangri haustið 2002 voru lengdarmæld 7073 seiði. Meðallengdin var 50 mm” Hvernig var þessi meðallengd reiknuð út? Hvaða forsendur liggja á bak við þessa útreikninga? Hvaða upplýsingar eru ekki gefnar? Er útreikningur á meðallengd byggt á reiknilíkani?

34 © einar 34 Einkenni seiðamælinganna Dreifing gagnanna er sýmetrísk Flest seiði eru af ákveðinni lengd Fjöldi seiða af ákveðinni lengd lækka eftir því sem lengra er frá “miðbikinu” Er til einhver ferill sem að lýsir þessum einkennum? n=7073

35 © einar 35 Hvaða ferli lýsir gögnunum best? Hér gefum við okkur að gögnin fylgi normaldreifingu: Finnum gildi á  og  sem að lýsa best gögnunum.  eða  eitt og sér segja í raun ekki nema hálfa sögu.

36 © einar 36 Hvað er hvað? Fall sem lýsir normaldreifingu er flókið við fyrstu sýn...... X i - mæld stærð (hér lengd fisks) n i – fjöldi fiska af lengd X i N – Heildarfjöldi mældra fiska  - metin stærð, daglega nefnt meðaltal  - metið frávik, daglega nefnt staðalfrávik

37 © einar 37 Hvað skiptir máli? Hvaða stuðlar eru í jöfnunni?  er meðaltalið  er staðalfrávik Mældu gildin eru auðvitað n i og X i Allt hitt eru fastar Ath: Gætum allt eins notað táknið X-hat í stað 

38 © einar 38 Sem sagt..... Líkindadreifingin stjórnast eingöngu af gildunum á stuðlunum  og , vegna þess að allt hitt (2, , e,...) eru fastar og því aukaatriði. Slíkt er oft skrifað sem: Líkindadreifingin er fall af meðaltali og staðalfráviki

39 © einar 39 pdf = f( ,  ), höldum  =50 Meðaltalið (  eitt og sér segir í raun ekki nema hálfa sögu því án staðalfráviksins (  ) höfum við litlar upplýsingar um dreifingu gagnanna um meðaltalið.

40 © einar 40 pdf = f( ,  ), höldum  =10

41 © einar 41 “Bestu” stuðlarnir Sagt var:  =50 Vantaði:  =10

42 © einar 42 Hvaða merkir staðalfrávik? Í seiðaleiðangri 2002 voru mæld 7073 þorskseiði. Meðallengd var 49.8 mm og staðalfrávik 10.1 mm  68% af mælingum (4810 seiði) falla innan við 1 staðalfrávik (39.7-59.9 mm) ef gert er ráð að gögnin séu normaldreifð.

43 © einar 43 Hvaða merkir 1.96staðalfrávik? Í seiðaleiðangri 2002 voru mæld 7073 þorskseiði. Meðallengd var 49.8 mm og staðalfrávik 10.1 mm  95% af mælingum (6719 seiði) falla innan við 1.96 staðalfrávik (30.0-69.6 mm) ef gert er ráð að gögnin séu normaldreifð.

44 © einar 44 1.96 staðalfrávik frá meðaltali Athugið að staðalfrávikið lýsir dreifingu gagnanna. Bilið sem að t.d. 95% gagna falla undir er annað fyrir  =1.0 en  =2.0 þó svo að meðaltalið sé það sama. Meðaltalið eitt og sér segir því aðeins hálfa söguna.

45 FIF Aðrar dreifingar á gögnum

46 © einar 46 0-grúppa: gögn Hvað er að stað- hæfingunni að meðalársfjöldi og staðalfrávik seiða sé  = 1053  = 1885 ????

47 © einar 47 0grúppa:  =1053,  =1885 -27004800  95% Svar: Fjöldi seiða getur ekki verið negatívur?

48 © einar 48 Líkanið af meðalfjölda Gefið var:  =1053 og  =1885 Ljóst er að gögnin falla ekki að líkaninu, þ.e. gögnin eru ekki normaldreifð. Því eru  og  merkingarleysa.

49 © einar 49 Hvað með lógaritmann? Lausn:  =5.5 og  =1.9 Hér falla gögnin betur að normaldreifingu og  og  ekki lengur merkingarleysa. Fittið er þó ekki mjög gott

50 © einar 50 Tökum antílógaritmann..... Meðaltali af lógaritmanum af seiða- vísitölunni gefur  =5.5 og  =1.9. Þ.e. að segja 95% af vísitölumælingunum ættu að falla innan bilsins 5.5  1.96*1.9 Ef við tökum antilógaritmann af þessu fáum við að 95% af vístölumælingunum ættu að falla innan bilsins: Geometrískt meðaltal er = exp(5.5)=248 95% mörkin liggja á bilinu 6 - 9000 Þetta lýsir gögnunum betur en fyrsta tilraun!

51 © einar 51 Lognormal dreifing

52 FIF Kynning á hártogun (bootstrap)

53 © einar 53 Hártogun I Til þess að mynda öryggismörk í kringum einhvern metinn stuðul þarf að vita með hvaða hætti frávikin eru dreifð í kringum besta matið. Algengasta dreifing á frávikum í kringum meðaltal er normaldreifing. Hinsvegar eru til margar aðrar dreifingar (s.s. log-normal dreifing, gaussian, poisson og multinomial)

54 © einar 54 Hártogun II Vandamálið er að oft er þessi dreifing ekki þekkt. Ef röng dreifing er notuð til að meta öryggismörk á einhverjum metnum stuðli leiðir það til rangrar ályktunar sbr. Útreikninga á meðafjölda seiða þegar gert er ráð fyrir að fjöldinn sé normaldreifður. Ein lausn á því er að nota gögnin sjálf til að meta dreifinguna, þetta er kallað hártogun (bootstrapping)

55 © einar 55 Hártogun III Búði til b gagnasett a 1, a 2, a 3, …. a b sem hvert um sig inniheldur n gögn sem tekin hafa verið með tilviljunarkenndum hætti úr upphaflegu gögnunum. Reiknaðu stuðlana (t.d. meðallengd, stofnstærð, …) í hverju setti um sig Myndaðu “líkindadreifingu” og reiknaðu einhver öryggismörk (t.d. 95% öryggismörk)

56 © einar 56 Dæmi um einfalda útreikninga

57 © einar 57 Dreifing meðaltals (n = 255)

58 © einar 58 Líkindadreifing meðaltals (n=255)

59 © einar 59 Hártogun IV Út frá myndaðri líkindadreifingu er hægt að reikna líkindi á að meðaltali liggi innan einhverra tiltekinna marka. T.d. 50% líkur eru á að meðaltalið sé á milli 6.3 og 7.8 95% líkur eru á að meðaltalið sé á milli 5.0 og 8.9 Í verklegum tíma munum við reyna að prófa hártogun til að lýsa dreifingu gagna.

60 © einar 60 Kostir og gallar hártogunar Kostir hártogunar: Ekki þarf fyrirfram að gefa sér að gögnin dreifist eftir einhverjum ákveðnu ferli (normal, lognormal, o.s.fr.) Ókostir hártogunar: Tímafrekt, krefst margendurtekningar á útreikningum. Er eiginlega ekki lengur ókostur á tímum tölvualdar.

61 © einar 61 Mat á B 2000 skv. hártogun Mestu líkur 95% líkur Hugsið ykkur ofangreint dæmi ef við hefðum notað hefðbundið meðaltal og staðalfrávik

62 © einar 62 Mat á B 2000 skv. hártogun 95% líkur


Download ppt "FIF 1. Forgangur Af reiknilíkönum og óvissu: Að fella mælingar að líkani Fyrirlestur #2 Haustönn 2006 Einar Hjörleifsson."

Similar presentations


Ads by Google