Fülogeneesi rekonstrueerimine

Slides:



Advertisements
Similar presentations
Korporatiivse informatsiooni integratsioon Tehnoloogiad EAI, EII, ETL.
Advertisements

Java ja.NET Framework programmide kompileerimine masinkoodi Siim Karus.
BIOTEHNOLOOGIABIOTEHNOLOOGIA. Mis on biotehnoloogia? Biotehnoloogia on rakendusbioloogia haruteadus, mis kasutab organismide elutegevusel tuginevaid protsesse.
Kutsehariduse arengutest a. alguse vaade. Andres Pung EKEÜ seminar Narva,
HAPLOBLOKID Reedik Mägi
Seminars for auditors and financial managers/accountants
Puuuurimine Targo Tennisberg Aprill 2014
Miks doc-formaadis fail ei ole hea?
Supporting youth in Estonian Unemployment Insurance Fund
Vahelduvvool & Pooljuhid
Millised on Cherry õnnestumised ja kasvuraskused?
Õpiobjekt: ÕPIME KELLA
Kombinatoorsete süsteemide disain
Elisa tee 4,5G-ni!
Mida kasutame sarnaste järjestuste leidmiseks:
Singapore Mathematical Society Association of Mathematics Educators
Koostas: Kristel Mäekask
Fülogeneesi rekonstrueerimine
Genoomi evolutsioon /mõned küsimused
Biomassi termokeemiline muundamine 8. Biosüsi
Innovatsioon ja tootearendus
Tehniline analüüs Veebruar 2012 Risto Sverdlik.
RNA - ribonukleiinhape
Üleeuroopaline töötervishoiu ja tööohutuse alane arvamusküsitlus
Remo Suurkivi Hansapank 26/10/2005
TARTU ÜLIKOOL 2003 HIIRE GENOOM JA SELLE VÕRDLUS INIMESE GENOOMIGA
Süsteemprogrammeerimine keeles C ja C#
Süsteemprogrammeerimine keeles C ja C#
Ortoloogide ennustamine
Koostas: Kristel Mäekask
Evolutsiooniline ökoloogia LOOM
Mustrite avastamine joondamata bioloogilistest järjestustest
Koostas: Kristel Mäekask
PMen Import failidest.
Feno- ja genosüstemaatika II
Keemiline side Molekulid
Süsteemid ja protsessid sinu arvutis
Kuldvillak Copyright © 2002 Glenna R. Shaw ja FTC Publishing
FOTOSÜNTEES Koostas: Kristel Mäekask
Alumiste hammaste sensoorne innervatsioon Nervus mylohyoideus’ega
Evolutsiooniline tõendusmaterjal...
Failisüsteem Windowsis
Meetodite erinevuse hindamised
MOODUL C6. SÜSTEEMI- JA VÕRGUHALDUS
Avo Ots telekommunikatsiooni õppetool,
populatsiooni substruktuur
Kahe- ja paljude lookuste populatsioonigeneetika
Ravivahetuse vajaduse prognoosimine klassifikatsioonipuu abil
Põhjuslikkus ja statistika
Organismide mitmekesisus
Modaalsuse semantiline kaart ja lekseem SAAMA
Inbriiding ja juhuslik geneetiline triiv
BizTalk Martin Maripuu Integratsiooni-arhitekt
Väärtuste õpetamine kirjanduse kaudu (?)
Evolutsiooniline tõendusmaterjal...
Arvutisüsteemide instituut 2018
C keel AVR mikrokontrolleril
NSO8055 Okeanograafiline prognoos
Evolutsioonikiirused liigitekkel ja makroevolutsioonis
Kunstimuuseumid Kadi Kriit.
Kvantitatiivne geneetika /quantitative genetics Eva-Liis Loogväli
Andmeladu ja Mitmemõõtmeline vaade andmetele
IDN5120.Täppismeetodid otsustuste vastuvõtmisel, ehk subjektiivsetest hinnangutest objektiivsete tulemusteni - valikud, võrdlused, järjestused / eelistused.
Katseandmete analüüs II
Pärilus ja ülekatmine Vt Aabits, vihik 8 Klassid: Kolmik.java
Juhuslikud sündmused populatsioonigeneetikas
Rapid antibiotic-resistance predictions from genome sequence data for Staphylococcus aureus and Mycobacterium tuberculosis ehk Mykrobe predictor Phelim.
Kombinatoorsete süsteemide disain
C keel AVR mikrokontrolleril
AATOM. AATOMI EHITUS. Õpik lk
Presentation transcript:

Fülogeneesi rekonstrueerimine Eva-Liis Loogväli (Eesti Biokeskus) 11.03.2011

Fülogenees (phylogeny) – organismide rühma päritolu ja evolutsioon Fülogeneetika (phylogenetics) – bioloogia haru, mis uurib organismirühmade (nt populatsioonide, liikide) päritolu ja põlvnemiskäiku. Fülogenees (phylogeny) – organismide rühma päritolu ja evolutsioon phylē (kr.k.) – hõim genesis (kr.k.) – sünd Willi Hennig (1913-1976) Grundzüge einer Theorie der phylogenetischen Systematik, 1950.

Fülogeneetika (kladistika) on selline bioloogiline süstemaatika, mis klassifitseerib organisme nende ühise päritolu põhjal. Fülogeneetika erineb teistest taksonoomilistest süsteemidest (nt feneetikast) selle poolest, et rõhk on pandud omandatud uutele tunnustele. Feneetika klassifitseeris tunnuseid nende üldise morfoloogilise (välimuse) sarnasuse alusel. Kladistika seevastu on kvantitatiivne ja käsitleb iga tunnust eraldiseisavana ja diskreetsena.

Tree of Life Web: http://tolweb.org Elu puu Tree of Life Web: http://tolweb.org Elu puu. Kõik elusolendid Maal on omavahel seotud põlvnemissuhetega (meeldetuletus: meil on ühine geneetiline kood). Kõigi kolme eluslooduse domääni, arhead, eubakterid ja eukarüoodid, ühist evolutsioonipuud nimetatakse elu puuks. Elu puu rekonstruktsioon on evolutsioonilise bioloogia peaeesmärke. Viimast seisu vaata Tree of Life Web: http://tolweb.org/tree/phylogeny.html from: Carl Zimmer. Evolution (William Heinemann, 2002)

Tegelik puu – reaalselt toimunud fülogeneesi kujutis Tegelik puu – reaalselt toimunud fülogeneesi kujutis. Enamasti pole teada. ÜKS ja ainus Tuletatud e. konstrueeritud puu – tegeliku puu hinnang; fülogeneesi mudel, hüpotees. Konstrueeritakse olemasolevate andmete põhjal. Võib, kuid ei pruugi olla identne tegeliku puuga. Tavaliselt saab andmetest tuletada mitu puud. Tegelik puu: Tegelik puu kujutab OTUde põlvnemissuhete tegelikku mustrit ja on reaalselt toimunud fülogeneesi ehk evolutsioonilise ajaloo kujutis. Fülogenees on unikaalne protsess, on ainult üks õige evolutsiooni puu. Enamasti pole tegelik puu teada. (Tegelikke puid on saadud labori organisme kasvatades ja uurides või kasutades arvutisimulatsioone.) Tuletatud e. konstrueeritud puu: Olemasolevate andmete, näiteks järjestuste põhjal on puu konstrueerimise meetodiga võimalik konstrueerida puu. Seda puud nimetatakse konstrueeritud e. tuletatud puuks. Tuletatud puu kujutab põlvnemissuhteid, kuid ta pole tegelik puu vaid tegeliku puu hinnang. Sõltuvalt andmetest, puu konstrueerimise meetodist jne. vastab tuletatud puu rohkem või vähem tegelikule puule. Konstrueeritud puu võib olla, kuid ei pruugi olla identne tegeliku puuga. Kui antud OTUde jaoks on ainult üks tegelik evolutsioonipuu, siis tuletatud puid võib olla mitu, isegi väga palju. Tuletatud puu on hüpotees, mis püüab seletada olemasolevaid andmeid, näiteks järjestuste vahelisi põlvnemissuhteid, seda, kuidas vaadeldud järjestused evolutsiooni käigus on kujunenud.

Puu Taxonomic Unit, OTU välimine haru =sisemine haru =sõlm =tipp e Operational Taxonomic Unit, OTU =juur Puu välimine haru Puu on matemaatiline struktuur, mida kasutame fülogeneesi mudelina. Puu moodustavad sõlmed ja harud (servad). Tipp e. leht e. OTU (Operational Taxonomic Unit ehk operatsiooniline taksonoomiline ühik) kujutab järjestusi või organisme, mille kohta meil on andmeid (sealhulgas fossiilseid andmeid). Sisesõlm on sageli hüpoteetiline eellane, kelle kohta andmed puuduvad (näit. pole nukleotiidset järjestust). Juur on kõigi antud puud moodustavate OTUde eellane, s.o. viimane ühine eellane (most recent common ancestor MRCA). Puu on matemaatiline struktuur, mida kasutame fülogeneesi mudelina.

Puud on pööratavad, oluline on ainult lahknemiste järjekord küülikud hiired kängurud Puud on pööratavad, oluline on ainult lahknemiste järjekord evolutsiooniline puu ehk fülogeneetiline puu ehk kladogramm ehk dendrogramm

Fülogeneesi rekonstrueeritakse kladistiliste meedotitega ja jagatud tunnuste alusel Kladistika kasutab andmetena tunnuseid, millel on diskreetsed väärtused, näiteks: morfoloogilised (purihammaste kuju), füsioloogilised (imetamine, munemine) molekulaargeneetilised (kromosoomide arv, nukleotiidne järjestus).

Klaad on monofüleetiline rühm = P ja K viimane ühine eellane ning kõik tema järglased parafüülia Klaad on monofüleetiline rühm = A ja B viimane ühine eellane ning kõik tema järglased. Polüfüleetilises rühmas puudub ühine eellane. Parafüleetilises rühmas on küll ühine eellane, kuid puudub mõni järglastest. parafüülia polüfüülia

imetajad kahepaiksed linnud kalad roomajad amnioodid tetrapoodid selgroogsed

Vaadeldes erinevaid tunnuseid, erinevaid fülogeneesi puid, saame tuletada erinevaid fülogeneesi puid, kuid ainult üks saab olla õige. Fülogeneetilisi suhteid peegeldavad ainult ühiselt eellaselt päritud tunnused ehk homoloogsed tunnused. Tunnuse seisundid (character states)

Homoloogsed tunnused homoloogia homoplaasia Kui tunnuse seisundid on identsed oma päritolu tõttu, s.t. need on päritud ühiselt eellaselt, siis on tegemist homoloogiaga. Kui sarnasus tunnuse seisundite vahel ei ole seotud pärandumisega ühiselt eellaselt, vaid esineb kahes organismi rühmas sõltumatult, siis on tegemist homoplaasiaga. Tunnuse seisund kahes liigis on homoloogne, kui see on päritud ühiselt eellaselt, ja homoplaasne, kui on tekkinud sõltumatult.

vanemad ja uuemad tunnuse seisundid apomorfne plesiomorfne autapomorfne sünapomorfne homoplaasne homoloogne Tunnuse seisundeid saab jagada vanemateks ja uuemateks. See on fülogeneesi rekonstrueerimisel hädavajalik. Vanemad homoloogiad on need tunnusseisundid, mis olid olemas juba vaadeldavate liikide ühisel eellasel. Vanemaid tunnuseid nimetatakse plesiomorfseteks. Uuem seisund on kujunenud plesiomorfsest tunnusest. Evolutsiooniliselt nooremat tunnust nimetatakse apomorfseks tunnuseks. vanem seisund (ancestral state) uuem seisund (derived state)

kehakatted jalgade arv soojasus kolju jalgade asend lind krokodill sisalik kilpkonn kehakatted jalgade arv soojasus kolju jalgade asend

Homoloogiate äratundmiseks on mitu võimalust: samasugune anatoomiline põhistruktuur sarnased ühendused kõrvalasetsevate struktuuridega sarnane embrüoloogiline päritolu ja areng

Õigesti määratud tunnused ja tunnusseisundid (polaarsus) viitavad alati ühele (õigele) fülogeneesi puule. Kui oleme õigesti ära tundnud homoloogiad ja tunnuste seisundid, siis pole võimalik, et erinevad tunnused viitavad erinevale puule.

kehakatted jalgade arv soojasus kolju jalgade asend lind krokodill sisalik kilpkonn kehakatted jalgade arv soojasus kolju jalgade asend Õiged tunnused on koju kuju ja jalgade asend. Need peegeldavad lindude ja krokodillide ühisel esivanemal tekkinud uusi tunnusseisundeid.

Krokodill ja sisalik jagavad ürgseid, plesiomorfseid tunnuseid aeg fenotüüp sisalik krokodill lind Krokodill ja sisalik jagavad ürgseid, plesiomorfseid tunnuseid Lindude evolutsioon on olnud kiirem

Homoplaasia kolm põhjust paralleelne konvergentne sekundaarne kaotus e reversioon Eristatakse vähemalt kolme homoplaasia tüüpi. Paralleelse evolutsiooni ja konvergentsi korral tekib sama tunnuse seisund kahes järjestuses või kahes organismide rühmas sõltumatult. Erinevus nende kahe vahel on selles, et paralleelse evolutsiooni korral on eellasseisund sama, aga konvergentsi korral on eellasseisund erinev. Konvergentse evolutsiooni korral on järglased omavahel sarnasemad mingi tunnuse osas, kui olid nende esivanemad. Paralleelse evolutsiooni puhul on järglased omavahel sama sarnased kui esivanemadki. Homoplaasia võib olla tingitud ka tagasipöördumisest eellastunnuse juurde, e. omandatud tunnuse kadumisest.

Paralleelne (ja konvergentne) evolutsioon pärisimetajatel ja kukkurloomadel hundisarnane kiskja puuvõrades elutsev liugleja maa sees elutsev putuktoiduline Kui ühised eellased pole hästi kirjeldatud, siis on paralleelsel ja konvergentsel evolutsioonil raske vahet teha. 1) pärisimetajate ja kukkurloomade esivanemad eri kontinentidel olid erinevad juba enne dinosauruste väljasuremist ning arenesid seejärel sarnasemaks ehk konvergeerusid (Richard Dawkins). Teise käsitluse kohaselt vaadeldakse imetajate evolutsiooni juba alates pärisimetajate ja kukkurloomade ühisest esivanemast. Sellest perspektiivist tundub, et nad arenesid paralleelselt. (Stephen Jay Gould). Antud juhul sobib paralleelne evolutsioon seletuseks kõigil neil juhtudel, kus pole tegemist täiesti erinevate struktuuride poolt omandatud sama funktsiooniga (preadaptsioonid).

Lindude, pterosauruste ja nahkhiirte tiivad on homoloogsed kui esijäsemed, aga homoplaassed kui lennuvahendid! Lind Nahkhiir Konvergentsi tavaliseks näiteks on linnu ja nahkhiire tiib. Linnu ja nahkhiire tiib on väliselt sarnased ja täidavad sama funktsiooni, kuid nad ei ole seda pärinud ühiselt esivanemalt. Lindude ja nahkhiirte esivanemad olid väga erinevad loomad. Tiibade ehitus on samuti erinev. Linnu tiib toetub teisele sõrmele ja on kaetud sulgedega. Nahkhiire tiib toetub 2.-5. sõrmele ning on kaetud nahaga. Kuigi ka lindude esivanemad olid roomajad, omandasid pterosaurused lennuvõime sõltumatult. Putukate tiivad arenesid hoopis lõpusekaartest.

Tunnuste polaarsuse määramiseks tuleb puud juurida juurimata puu juuritud puu juur Juur annab puule ajalise mõõtme Õige puu rekonstrueerimiseks peame teadma tunnuste polaarsust ehk arengusuunda (plesiomorfne vs apomorfne). Selleks peame leidma fülogeneetilise puu juure asukoha, mis ühtlasi annab kogu puule ajalise mõõtme. Juuritud ja juurimata puud Kladogrammid ja aditiivsed puu võivad olla juuritud või juurimata. Juuritud puul on üks sõlmedest märgitud (identifitseeritud) juureks. Sellest sõlmest, s.o. juurest pärinevad kõik teised sõlmed. Siit tulenevalt, on juuritud puul suund. Suund vastab evolutsioonilisele ajale – mida lähemal sõlm juurele on, seda vanem ta on. Juuritud puu võimaldab määratleda eellase-järglase suhte sõlmede vahel – servaga ühendatud sõlmede paaris on juurele lähemal paiknev sõlm eellane ja kaugemal paiknev on järglane. Juurimata puul pole juurt. Siit tulenevalt, juurimata puul ei ole ka suunda – ei määratle eellast ja järglast. Juurimata puu esitab ainult sõlmede-vahelisi põlvnemissuhteid ning selleski võib vigu sisse tulla. Nimelt, juurimata puu sõsarklaadid võivad juuritud puul osutuda mittesõsarklaadideks. See on juhul, kui juur paikneb serval (oksal), mis viib üheni neist sõlmedest.

Juurimine välisrühma abil kasutab parsimoonsuse ehk säästuprintsiipi Puude juurimiseks on mitmeid meetodeid. Üheks levinuimaks on välisrühma abil juurimine. Välisrühmaks sobib evolutsiooniliselt lähedane liik, mille kohta on teada, et see on lahknenud uuritavate liikide ühisest eellasest juba varem. Välisrühmaga võrdlemine kasutab parsimoonsuse ehk säästuprintsiipi, mille kohaselt kõige tõenäolisemalt on evolutsioon kulgenud kõige väiksema arvu muutustega ehk kõige lühemat teed pidi. See oletus on põhjendatud, sest uue tunnuse kujunemine on vähetõenäoline, selle levimine ja fikseerumine samuti vähetõenäoline ja sageli aeganõudev. Seega on loogiline eeldada, et evolutsioonilisi muutusi on toimunud pigem vähem kui rohkem. Välisrühma kasutamiseks peab meil olema eelteadmisi antud rühma fülogeneesi kohta. Vahel juhtub, et üks välisrühm viitab ühele juure asukohale ning teine teisele. Üldiselt tuleks eelistada fülogeneetiliselt lähemat välisrühma. Välisrühma kasutamine eeldab eelteadmisi fülogeneesist

Näiteks imetajasarnaste roomajate fossiilseid leiud Puude juurimiseks ja tunnuste polaarsuse määramiseks sobivad fossiilsed andmed, juhul kui neid on rikkalikult. Näiteks imetajasarnaste roomajate fossiilseid leiud evolutsioon suht.täielik suht.ebatäielik fossiilide seeria fossiilide seeria Puude juurimiseks ja tunnuste polaarsuse määramiseks sobivad fossiilsed andmed, juhul kui neid on rikkalikult. Näiteks on teada terve seeria imetajasarnaste roomajate fossiilseid leide ja imetajate varajane evolutsioon ning tunnuste kujunemine on hästi kirjeldatud. Paraku enamasti on fossiilide seeriad (väga) ebatäielikud ja tekitavad tunnuste polaarsuse määramisel segadust. Enamasti on fossiilide seeriad (väga) ebatäielikud ja tekitavad tunnuste polaarsuse määramisel segadust.

Vaatamata kõigile pingutustele võib kladistilise analüüsi tulemusena siiski säilida andmetes vastuolusid ja fülogenees pole üheselt rekonstrueeritav. täpsustada andmestikku ja uurida veel põhjalikumalt koguda andmeid juurde otsustada, et see puu, mida toetab enamik tunnustest, on õige

Molekulaarne fülogeneetika + Kasutatakse DNA järjestusi (A, T, C, G) või aminohappelisi järjestusi (20 erinevat aminohapet) Saab võrrelda väga erinevaid organisme Informatsiooni suur hulk, mutatsioone on palju Tunnused on omavahel võrreldavad, on võimalus kasutada matemaatilisi mudeleid - Homoplaasiate hulk on suur Molekulaarseid homoplaasiaid ei saa lahendada “lähemalt asja uurides”, neid saab lahendada ainult konsensuse alusel

fülogeneesi rekonstrueerimine eri tasemeil: Geenide duplikatsioonid Haplotüüpide mitte-rekombineeruv Organismide (rühmade) liigisisene genealoogia Liikide (rühmade) paljude lookuste põhjal Evolutsioonipuu võib kujutada nii geenide (duplitseerumise järel omandab üks koopia uue funktsiooni), haplotüüpide (mitterekombineeruvate genoomi osade puhul, mitokondriaalne DNA, Y kromosoom, jt), organismide (liigisisene evolutsioon näiteks mikrosatelliitide järgi) või ka liikide rühma (paljude lookuste põhjal) evolutsioonilisi, s.t. põlvnemissuhteid.

Molekulaarse fülogeneetika metoodika:

Vali geen: näiteks: ss-rRNA valk geenidevaheline Vali geen. Põhimõtteliselt võib kasutada igasuguseid järjestusi. RNA geene, valgu geene, regulatoorseid järjestusi, geenidevahelisi alasid. Sageli kasutatakse ribosoomi väikese subühiku RNA geeni (ss-rRNA, E. colis 16S rRNA), sest neis on nii ülikonserveerunud järjestusi (identsed praktiliselt kõikidel elusolenditel) kui ka perekondi eristavaid piirkondi (Escherichia vs Salmonella). rRNA puudusteks on näiteks suur mutatsioonikiiruse varieeruvus liikide vahel võrreldes mõnede valgugeenidega. Samuti on rRNA termofiilides kõrge GC-sisaldusega, mis kipub fülogeneetilises analüüsis samasse klaadi kokku klasterdama (klaad = klaster) erinevaid termofiile, sõltumata nende tegelikust sugulusest. rRNA põhiliseks puuduseks on siiski liiga aeglane mutatsioonikiirus selleks et uurida perekonnasiseseid või liigisiseseid põlvnemissuhteid. Valgugeenides leidub varieeruvust ka siis, kui aminohappeline järjestus on konserveerunud. Koodi kõdumise tõttu. Ja veel, isegi suure DNA varieerumise korral on aminohappeline järjestus üldjuhul paremini konserveerunud kui DNA, mis omakorda hõlbustab joondamist. Kokkuvõtteks, oluline on, et järjestused varieeruksid OTUde vahel piisavalt, et neid eristada, kuid mitte sel määral, et see segab joondamist. Geenide valikul tuleb eelistada neid, millel on vähem duplikaate ehk paralooge (vt allpool) ning neid, mis ei kipu horisontaalselt üle kanduma.

Ortoloogsed - ühisest eellasgeenist liigitekke käigus Homoloogsed geenid: Ortoloogsed - ühisest eellasgeenist liigitekke käigus Paraloogsed - ühisest eellasgeenist duplitseerumise tulemusena Ksenoloogsed - horisontaalse ülekande tulemusena liigiteke Enamasti pole vaja ise sekveneerida, sest andmebaasid sisaldavad suurel hulgal järjestusi. Andmebaasidest otsimine toimub alati mitmese joondamise (multiple alignment) põhimõttel. Igale joondusele omistatakse skoor, mis iseloomustab selle headust. Edasi analüüsitakse neid järjestusi, mis saavad parima skoori. Nende seas võib olla juhuslikult sarnaseid järjestusi, ortoloogseid, paraloogseid ja ksenoloogseid geene. Ortoloogsed geenid on geenid, mis on tekkinud ühisest eellasgeenist liigitekke käigus. Liikidevaheliste suhete rekonstrueerimiseks peame võrdlema just ortolooge. Vahel nimetatakse homoloogseteks ainult neid geene, mis on ortoloogsed. Paraloogsed geenid on geenid, mis on tekkinud ühisest eellasgeenist selle geeni duplitseerumise tulemusena. Ksenoloogsed geenid on sellised homoloogsed geenid, mis on tekkinud geeni horisontaalse ülekande tulemusena.

Kui päritakse erinevad paraloogid: geeni duplikatsioon Liigipuid rekonstrueerib fülogenoomika – paljude geenide samaaegne analüüs liikide puu Liigipuu – puu, mis kujutab liikide põlvnemissuhteid. Liigipuu sisemised sõlmed kujutavad liigitekke juhtu, mille läbi eellasliigi populatsioon lõhenes kaheks rühmaks, mis omavahel enam ei ristunud. Geenide ja liikide lahknemine ei toimu alati samal ajal. Geenipuu kujutab geenide põlvnemissuhteid. Sisemised sõlmed geenipuul näitavad eellasgeeni lahknemist kaheks geeniks. Nende geenide DNA järjestused on mutatsiooni tulemusel erinevaks muutunud. Tihti geenipuu ja liigipuu ei ühti. Põhjusi on mitmeid: 1)geeni duplikatsioon (paraloogsed geenid võivad olla sarnasemad kui ortoloogsed) 2)geenide divergents toimub varem kui liikide lahknemine tulemuseks on liikide divergentsiaja ülehindamine (liiga vanaks) 3)geenipuu topoloogia erineb liigipuu topoloogiast Selleks et geenipuu oleks võimalikult sarnane liigipuuga, tuleks võtta rohkem geene ning duplitseerunud geenide korral kaasata kogu komplekt või loobuda duplitseerunud geenidest üldse. geenide puu

Molekulaarse fülogeneetika metoodika: arvuta puu

Fülogeneesipuude konstrueerimise meetodite neli põhilist klassi: (1) säästumeetod ehk parsimoonsus (2) distantsmeetod (3) suurima tõepära meetod (4) Bayes`i meetod

otsitakse puud, mis on kõige lühem: (1) Säästumeetod (Maximum Parsimony MP) järgib Occami habemenoa ehk säästuprintsiipi 1 A 2 A 3 G 4 G otsitakse puud, mis on kõige lühem: Säästumeetodil (maximum parsimony, MP) otsitakse puud, millel on kõige vähem mutatsioone. Mutatsioonide arvu puul nimetatakse puu pikkuseks. See on kõigi puu harupikkuste summa. Vaadeldakse kõiki või paljusid puid ning võrreldakse nende pikkusi. Aluseks on Occami habemenoa printsiip, mille kohaselt tuleb muude asjaolude võrdsuse korral eelistada lihtsamat hüpoteesi. Antud juhul lühimat puud. (Tegelik puu kuulub tõenäoliselt säästlikemate puude hulka, kuid ei pruugi olla kõige säästlikum.)

Eellasjärjestuste rekonstrueerimine Säästumeetodil rekonstrueeritakse eellasjärjestusi. Selleks, et tuletada puu sisemises sõlmes paiknevat hüpoteetilist eellasjärjestust, kasutatakse selle eellasjärjestuse vahetuid järglasi. Alustatakse puu tippudest ja liigutakse allapoole. Säästumeetodil tuletatakse tunnuste eellasseisundid ning see lisab infot tunnuste evolutsiooni kohta.

Sääästumeetodi jaoks informatiivsed positsioonid hunt A A C C G C A C A karu A G C T A C A T T rebane A G T C A C A C C siil A G T C G T G T G jänes A G T C G T G T G mittevarieeruv positsioon mitteinformatiivne positsioon hunt C G C A C ... + A C A karu C A C A T ... + G T T rebane T A C A C ... + G C C siil T G T G T ... + G C G jänes T G T G T ... + G C G Informatiivne on see tunnus, millel on vähemalt kaks seisundit ning mille alusel saab tekitada klaadid, millest igas on vähemalt kaks OTUt (taksonit). informatiivsed positsioonid

Probleemid: võimalike puude arv on väga suur

põhjalik otsing (exhaustive search) - vaadeldakse kõiki võimalikke Puude otsingud põhjalik otsing (exhaustive search) - vaadeldakse kõiki võimalikke määratletud otsing (specific tree search) - potentsiaalselt õigeid pruning and regrafting - topoloogilised ümberkorraldused seni kuni lühemaid ei leita heuristiline otsing (heuristic search) - ainult väikene hulk kõigist võimalikest, tõenäolisemad Selle asemel, et analüüsida kõiki võimalikke puid, võib võrrelda ainult kõige tõenäolisemaid, teha spetsiifilise või heuristilise analüüsi.

pruning and regrafting Otsingualgoritmid alustavad etteantud puust ning teevad sellesse ükshaaval ümberkorraldusi. Igale uuele puule leitakse pikkus ning kui see on lühem eelmisest, siis tehakse ümberkorraldusi omakorda sellele. Seni kuni lühemat ei leita. Võib kasutada puude otsingu algortime. Näiteks sellised meetodid nagu lähimate naabrite vahetamine (nearest-neighbor interchange) ja alampuude ümbertõstmine (branch-and-bound, subtree pruning and regrafting) alustavad etteantud puust ning teevad sellesse ükshaaval ümberkorraldusi. Igale uuele puule leitakse pikkus ning kui see on lühem eelmisest, siis tehakse ümberkorraldusi omakorda sellele. Seni kuni lühemat ei leita. pruning and regrafting

“mägironimise” algoritm Oht jääda suboptimumile kinni. Ravi – protsessi korratakse mitu korda, alustades erinevatest alampuudest. Tulemus võib sõltuda sellest, millisest alampuust alustada

(2) Distantsmeetodid Distantsmeetodid lähtuvad eeldusest, et need, kelle viimane ühine eellane elas hiljem, on sarnasemad kui need, kes lahknesid varem.

Distantsmeetodid kasutavad algandmetena evolutsioonilisi (geneetilisi) kaugusi säästumeetod distantsmeetod Puu konstrueerimise algandmetena kasutatakse evolutsioonilisi kaugusi. Evolutsiooniline kaugus, ka geneetiline kaugus, mõõdetakse asenduste arvuga või erinevuse määraga (valkude puhul). Konkreetsete asenduste iseloom puu seisukohalt huvi ei paku, ainult kaugus. Kõigepealt tehakse kauguste maatriks, millel on kõik paariviisilise võrdluse teel saadud kaugused. Edasi on vaja leida puu, mille harupikkused vastaks kõige paremini saadud maatriksile. Kaugused puul ja kaugused paariviisiliselt mõõdetuna ei lange tavaliselt kokku. Sarnaselt säästumeetodiga võib võrrelda kõiki puid. Näiteks eelistades sellist, mille paariviisiliste ja puu kauguste vahede ruutude summa on vähim (vähimruutude meetod).

Distantsmeetod kasutab andmetena ainult distantsmaatrikseid: vaadeldavad kaugused puu kaugused

Reaalsete andmete puhul ei lange vaadeldavad kaugused ja puu kaugused kokku Distantsmeetod otsib puud, mille korral kokkulangevus vaadeldavate distantside ja puu distantside vahel oleks suurim. 1) Võib otsida paljude puude seast sobivaimat 2) või kasutada algoritmi, mis konstrueerib distantside põhjal ühe puu.

Klasterdamisalgoritmid konstrueerivad Selliseid meetodeid, mis võrdlevad suurt hulka puid ja valivad parima, nimetatakse optimummeetoditeks. Optimummeetod on täpsem, kuid väga töömahukas. Kiiremad on need meetodid, mis ei võrdle suurt hulka puid, vaid loovad distantsmaatriksi põhjal ühe puu. Klastermeetodid kasutavad puude konstrueerimiseks klasterdamise algoritme. Optimummeetodid võrdlevad ja valivad

Klasterdamisalgoritmid konstrueerivad ühe puu võib sõltuda järjestuste lisamise järjekorrast Ei võimalda hinnata konkureerivaid hüpoteese Kiire Optimummeetodid Võimaldavad hinnata puu sobivust andmetega Võimaldavad võrrelda erinevaid puid Arvutuslikult väga kallid

Evolutsioonikiirus peab olema konstantne üle kõigi liinide UPGMA kaalumata paaride meetod aritmeetilise keskmisega (unweighted pair-group method with arithmetic mean) on distantsmeetod, mis kasutab klasterdamisalgoritmi UPGMA - unweighted pair-group method with arithmetic mean - on kõige vanem distantsmeetod. UPGMA eeldab, et puu on ultrameetriline ehk juurest kõigi tippudeni peab harupikkuste summa olema sama. Seega on väga lihtne harupikkusi leida. See peab vastama kõigi selle sõlmega omavahel seotud paaride distantside aritmeetilisele keskmisele. Näiteks, kui üks haru viib lindudeni ja teine imetajateni, siis on kummagi haru pikkus võrdne keskmise kaugusega, mis on kõigi lind-imetaja paaride vahel. Evolutsioonikiirus peab olema konstantne üle kõigi liinide

tegelik evolutsioonipuu distantsmaatriks Kui evolutsioonikiirus ei ole konstantne üle kõigi liinide, konstrueerib UPGMA puu, mille topoloogia on vale. UPGMA: UPGMA puudus: eeldatakse, et geneetiline kaugus korreleerub fülogeneetilise kaugusega, et töötab nn molekulaarne kell, mis igas puu harus ühtlase kiirusega mutatsioone juurde „tiksub“. Kõige esimesed molekulaarse evolutsiooni analüüsi meetodid, mis 1960ndatel kasutusele võeti, olidki distantsmeetodid, mis eeldasid ultrameetrilist puud. Kui evolutsioon on toimunud eri liinides erineva kiirusega, siis sellised distantsmeetodid konstrueerivad vale puu. Vale!

Naabrite ühendamise meetod on distantsmeetod (Neighbour joining NJ) kasutab klasteralgoritmi puu topoloogia ja harupikkuste leidmiseks distantsmaatriksi alusel nii, et puu pikkus oleks lühim Tuntud distantsmeetod on naabrite ühendamise meetod (Neighbor-joining, NJ). NJ on samuti klasterdamisalgoritm nagu UPGMA, kuid ei eelda molekulaarset kella. NJ püüab leida lühima puu. NJ sobib sadade OTUde võrdlemiseks, sest pole liiga arvutusmahukas.

Kuidas leida evolutsioonilisi ehk geneetilisi kaugusi? Geneetiliste kauguste leidmine. Paariviisiliste erinevuste arv ei peegelda geneetilist kaugust. Aminohapped võivad olla sarnaste või väga erinevate biokeemiliste omadustega. Aminohapetele antakse sarnasuse skoor või siis mõõdetakse teadaolevate asenduste tõenäosused. Sellest tulenevalt leitakse valgujärjestuste sarnasuse määr ning selle täiendväärtusena erinevus ehk kaugus.

Evolutsiooniline kaugus on muutuste hulk Mutatsiooniline küllastumine Kui nukleotiidipositsioonis on toimunud rohkem kui üks asendus, siis on tegelik asenduste arv suurem sellest, mis leitakse homoloogsete järjestuste võrdlemisel. Homoloogsete järjestuste võrdlemisel saadud kaugushinnang hindab järjestustevahelist evolutsioonilist kaugust alla, sest ei võta arvesse samas positsioonis toimunud korduvaid asendusi. Kõigil juhtudel, v.a. üksikasenduse korral on tegelik asenduste arv suurem sellest, mis leitakse homoloogsete järjestuste võrdlemisel.

Mutatsiooniline küllastumine DNA erinevuse määr (%) lahknemisaeg

Asenduste tegeliku arvu leidmine DNA erinevuse määr (%) Eeldatav asenduste hulk parandus vaadeldav asenduste hulk lahknemisaeg Vaadeldud asenduste arv ja divergentsiaeg pole lineaarses sõltuvuses. Põhjuseks on küllastumine, s.t. ühes ja samas nukleotiidipositsioonis on toimunud mitu asendust (>1). Asenduste kogunedes (akumuleerudes) küllastumine kasvab. Seega, mida kauem aega tagasi toimus lahknemine, seda enam erineb vaadeldud erinevuste arv tegelikult toimunud asenduste arvust – vaadeldud erinevuste arv hindab alla tegelikku evolutsioonilist muutust. Mida kaugemad on võrreldavad järjestused ja mida kiiremini nad evolutsioneeruvad, seda tõsisem on allahindamise probleem. Võrreldes aminohappeliste järjestustega, on probleem tõsisem DNA järjestuste korral – erinevaid aminohappeid on 20, aga erinevaid nukleotiide ainult neli. Evolutsiooniliselt lähedaste järjestuste analüüsil pole parandust vaja. Enamasti on vajalik teatud parandus mitmekordsete mutatsioonide jaoks. Mutatsioonidest täiesti küllastunud järjestused on fülogeneesi rekonstrueerimiseks kõlbmatud, sest korrelatsioon järjestuste ja evolutsioonilise kauguse vahel puudub. mitok. rRNA tuuma rRNA

(3) Suurima tõepära meetod (Maximum Likelihood) (4) Bayes`i meetod on statistilised meetodid Võimaldavad hinnata, kui palju on üks puu tõenäolisem kui teine Statistiline meetod opereerib tõenäosustega. Fülogeneesi käsitletakse juhusliku suurusena. Otsitakse puud, mis vastaks kõige paremini vaadeldud andmetele, võttes arvesse, et toimunu on vaid üks võimalik realisatsioon. ML on Ronald Fisheri poolt kasutusele võetud meetod. Kaasaegsete fülogeneetiliste ML meetoditele pani aluse Joseph Felsenstein 70-80ndatel. ML meetodid Joseph Felsenstein

(3) Suurima tõepära meetod (Maximum Likelihood ML) Suurima tõepära printsiip eelistab hüpoteesi, mille korral olemasolevate andmete tõenäosus on maksimaalne. Otsib puud (puid), mille tõepära on suurim, s.t. puud, mille korral tõenäosus näha olemasolevaid järjestusi, on maksimaalne. Hindab järjestuste vastavust tuletatud puule. Ei hinda tuletatud puu vastavust tegelikule puule!

Suurima tõepära meetod Meetod peab lahendama kaks probleemi: Leidma iga puu jaoks tõepära väärtuse, s.t. leidma iga puu haru pikkuste tõenäosuse 2. Leidma puu (puud), millel on suurim tõepära. Erinevalt säästumeetodist vaadeldakse kõiki võimalikke eellasseisundeid. Meetod nõuab: järjestusi järjestuse evolutsiooni mudelit puud (topoloogia ja harude pikkused)

DNA evolutsiooni mudelite konstrueerimine Mudelid võtavad arvesse asenduste kiirusi (tõenäosusi) ning järjestuse aluspaarilist koostist PAA(t) – A püsimajäämise tõenäosus aja t jooksul PTC(t) – transitsiooni tõenäosus PGC(t) – transversiooni tõenäosus   A T C G PAA(t) PAT(t) PAC(t) PAG(t) PTA(t) PTT(t) PTC(t) PTG(t) PCA(t) PCT(t) PCC(t) PCG(t) PGA(t) PGT(t) PGC(t) PGG(t) DNA evolutsiooni mudeleid kasutatakse puu harupikkuste (ehk evolutsiooniliste kauguste) määramiseks. Mudelid võimaldavad hinnata mutatsioonilise küllastumise ulatust. Statistiliste fülogeneesi rekonstrueerimise meetodite korral võimaldavad DNA evolutsiooni mudelid võrrelda alternatiivsete puude harupikkuste tõenäosusi. t – aeg P - tõenäosus

DNA evolutsiooni mudelid: Tuntumad mudelid: JC mudel on kõige lihtsam. Kõik asendused toimuvad sama tõenäosusega. See tähendab,et transitsioonide ja transversioonide tõenäosused on võrdsustatud. Kimura 2-parameetriline mudel (1980) Kimura võttis arvesse, et transitsioonide arv saidi kohta võib erineda transversioonide arvust saidi kohta ja esitas 2-parameetrilise mudeli. Näiteks inimese mitokondriaalses DNAs on transitsioonide ja transversioonide suhe Felsensteini (1981) mudel püüab arvesse võtta nukleotiidse järjestuse aluspaarilist koostist. Kui mõnesid nukleotiide on järjestuses oluliselt rohkem, siis on ootuspärane, et nende asendusi on rohkem kui teiste asendusi. Siiski, mudel eeldab, et kõigi parasjagu võrreldavate järjestuste aluspaariline koostis on enam-vähem ühesugune. Tegelikult võivad erinevad geenid ning sama geen erinevates organismides erineda nukleotiidselt koostiselt. Mudel ei diferentseeri asenduste kiirusi. Hasegawa, Kishino ja Yano mudel (1985) ehk HKY85sulatab kokku Kimura 2-parameetrilise ja Felsensteini mudeli. Üldine pööratav mudel arvestab järjestuse aluspaarilise koostisega ning annab kõigile kuuele asendusele (A↔G, A↔T, A↔C, G↔T, G↔C, T↔C) igale erineva kiiruse (tõenäosuse).

Sellel puul on 5 haru. 3 neist ei kanna mutatsiooni (tõenäosus 1-P) ja 2 kannavad mutatsiooni (tõenäosus P) Eeldusel, et sisemised sõlmed olid G, on tõenäosus näha tippudes A,C,G,G -> P2(1-3P)3 A G C   A T C G 1-3P P G Sellel puul on 5 haru. 3 neist ei kanna mutatsiooni (tõenäosus1-P) ja 2 kannavad mutatsiooni (tõenäosus P). Koosesinevate sündmuste ühistõenäosus on nende sündmuste tõenäosuste korrutis. Puu tõepära väärtuse saame, kui korrutame kõik tõenäosused üle kõigi harude ja kõigi tunnuste. See on väga väike tõenäosus, seepärast väljendatakse seda logaritmina. See on ühe puu tõepära. Selleks, et leida parim puu, peame selle arvutuse tegema paljudele puudele ja erinevalt rekonstrueeritud sisemiste sõlmede korral. Reaalselt kasutatakse meetodeid, mis täpset tõepära välja ei arvuta – on “tõepäravabad”, kuigi baseeruvad suurima-tõepära-filosoofial. Arvutusmahu vähendamiseks kasutatakse puude valimiseks MCMC simulatsioone

(4) Bayesi meetod Kasutab aprioorseid tõenäosusi (hüpoteesi tõenäosus enne andmete nägemist) ja vaatlusandmeid selleks, et otsustada, milline hüpotees on paremini toetatud (suurima aposterioorse tõenäosusega) Thomas Bayes (1764)

Bayesi teoreem Seda ei ole võimalik analüütiliselt välja arvutada! h – hüpotees (=puu) D – data (enamasti summeeritakse vaadeldud diversiteet parameetris teeta (θ) puu aposterioorne P puu aprioorne P puu tõepära (ehk andmete tõenäosus selle puu korral) Aposterioorne ehk kogemusele järgnev (kogutud andmete valguses) sündmuse tõenäosus. See on tõenäosus, eeldusel, et meil on mingid katseandmed. Aprioorne tõenäosus on tavaline, ilma lisainfota tõenäosus. Sel juhul on puu aprioorne tõenäosus on 1/(puude hulk). (Spetsiifiliste parameetrite hindamiseks kasutatakse aprioorseks tõenäosuseks lisainfot väljastpoolt molekulaargeneetilisi andmeid – näiteks fossiilide põhjal teadaolevaid lahknemisaegu.) Kahe sündmuse samaaegse esinemise tõenäosus (juhtusid mõlemad) – nende sündmuste tõenäosuste korrutis Kahe sündmuse tõenäosuste liitmisel saame tõenäosuse, et juhtus kas üks või teine. andmete tõenäosus, ∑ (puu tõepära*selle aprioorne tõenäosus) Seda ei ole võimalik analüütiliselt välja arvutada!

• Seisundite vahelised võimalikud üleminekud Markovi ahel (Markov chain) • Seisundite hulk • Seisundite vahelised võimalikud üleminekud koos vastavate tõenäosustega • Seisund ajahetkel n + 1 sõltub ainult seisundist ajahetkel n

Bayesian Inference (BI): Markovi ahela Monte Carlo (MCMC) simulatsioonid. Järgmine puu saadakse eelmisest, muutes puu topoloogiat, haru pikkusi või mudeli parameetreid. Valimisse jäävad need puud, mis olid eelmisest tõenäolisemad, andmetega võrreldes. Korrektse ahela korral on puu osakaal valimis selle puu aposterioorse tõenäosuse ligikaudseks hinnanguks. Tegelikkuses leitakse tõenäosused Markovi ahela Monte Carlo (MCMC) simulatsiooni abil. Võetakse puu ning tehakse sellele ümberkorraldusi, seejärel hinnatakse etteantud kriteeriumi alusel puu kas sobivaks või mittesobivaks. Kui hinnati sobivaks, siis võetakse uus puu omakorda ümberkorralduste aluseks. Kui oli mittesobiv, siis jätkatakse vana puuga. Peetakse meeles, kui kaua ühe puuga töötati ning see puu, mis sobis kõige kauem, valitakse. Lisaks võimaldab MCMC anda statistilise hinnangu mingi klaadi tõenäosusele puus. Sobivuse kriteeriumiks kasutakse enamasti mõnda summaarset statistikut (nt segregeeruvate saitide arv või mõni muu diversiteedi mõõt), mis asendab kogu puu tõepära välja arvutamist – approximate Bayesian computation ehk ABC. Meetod eeldab: järjestusi aprioorseid tõenäosusi puu, järjestuse evolutsiooni mudeli ja teiste parameetrite kohta

Näide: Puid valimis 100,000, neist 75,400 sisaldab klaadi B BI (Bayesian Inference) Toetus klaadile on antud monofüleetilist rühma sisaldavate puude osakaal valimis Näide: Puid valimis 100,000, neist 75,400 sisaldab klaadi B Tõenäosus, et rühm B on monofüleetiline (75,400/100,000)x100 = 75.4%

Suurima tõepära ja Bayes`i meetodid võimaldavad testida järjestuste evolutsiooni mudeleid ja ka teisi evolutsioonis olulisi parameetreid nagu näiteks populatsiooni suuruse muutused, hübridiseerumine, loodusliku valiku mõju, mutatsioonikiiruse muutused.

Kõigi fülogeneesi rekonstrueerimise algoritmide omadused on hästi kirjeldatavad ja kontrollitavad. Selleks lastakse neil rekonstrueerida evolutsioonipuid, mis on teada (näiteks arvutisimulatsioonist) Statistilised meetodid on kõige paindlikumad ning annavad parimaid tulemusi. Samas sõltuvad need tulemused paljudest eeldustest, mille kontrollimata jätmisel on oht tulemusi üle interpreteerida.