Podobnosť fylogenetických stromov Jana Lukešová
O čom to bude fylogenetické stromy metódy fylogenetickej analýzy tvorba fylogenetických stromov porovnávanie fylogenetických stromov
Základné pojmy Fylogenéza Fylogenetická analýza Fylogenetický strom vývoj druhov v evolučnom procese (vzťahy) Fylogenetická analýza hľadá vzťahy medzi sekvenciami génov, proteínov Fylogenetický strom zobrazuje výsledky fylogenetickej analýzy, možný priebeh evolúcie
Z biológie Proteín (bielkovina) Gén Genóm organická zlúčenina zložená z aminokyselín Gén pomenovaný úsek DNA so špecifickou funkciou kóduje bielkovinu Genóm kompletná genetická informácia
Evolúcia Gény Mutácie frekvencia génu/alely polymorfné -> alely frekvencia génu/alely mení sa v priebehu evolúcie v dôsledku prirodzeného výberu Mutácie pozitívne / negatívne / neutrálne somatické / zárodočné
Fylogenetické stromy oblasť analýzy Systému popisuje vzťahy medzi taxónmi (systematická jednotka) najlepší prostriedok na vizuálnu reprezentáciu evolučných vzťahov medzi organizmami
Fylogenetické stromy-pojmy Vetva - vzťah medzi taxónmi (predok-potomok) Dĺžka vetvy – počet zmien v rámci danej vetvy Uzol – vyhynutý alebo žijúci druh Clade (klád) – skupina dvoch alebo viac taxónov / sekvencií proteínov / sekvencií DNA Vzdialenosť – počet zmien medzi organizmami / sekvenciami Topológia – usporiadanie vetiev
Fylogenetické stromy - typy škálované počet evolučných zmien, čas (molekulárne hodiny)
Fylogenetické stromy - typy neškálované nezohľadňujú počet evolučných zmien, udávajú len “dátum“, kedy vznikla daná vetva / taxón
Fylogenetické stromy - typy bez roota
Fylogenetická analýza Genómy sa menili mutáciami. Počet zmien nukleotidov medzi genómami rôznych organizmov môže udávať vývoj rozdielov v čase. (timing of genome divergence) Porovnávaním rôznych genómov môžeme odhaliť evolučné vzťahy.
Fylogenetická analýza - predpoklady Sekvencie neobsahujú chyby pochádzajú od známeho zdroja sú homologické (spoločný predok, rôzna funkcia) každá sekvencia má spoločnú fylogentickú históriu s ostatnými
Hypotéza molekulárnych hodín zmeny v sekvenciách sa objavujú v pravidelných intervaloch intervaly sú u rôznych druhov a génov rozdielne kalibrujú sa pomocou fosílií, aby sa určila doba vzniku kládu
Fylogenetická analýza - metódy Maximálna parsimónia strom s najmenším možným počtom evolučných zmien Metódy založené na vzdialenostiach Bayesovský prístup Metóda maximálnej pravdepodobnosti (Maximum likelihood) najpravdepopodobnejší priebeh evolúcie
Fylogenetická analýza -kroky Zarovnanie - Multiple Sequence Alignment (MSA) Určiť substitučný model Postavenie stromu Ohodnotenie stromu
MSA
MSA – metódy výpočtu Dynamické programovanie Heuristiky Iteratívne metódy Hidden Markove modely (pravdepodobnostná metóda) Genetické algoritmy
Maximálna parsimónia strom s najmenším možným počtom evolučných zmien vyžaduje MSA vhodná pre malý počet podobných sekvencií náročné na výpočet aj čas software: PHYLIP, PAUP
Metóda maximálnej pravdepodobnosti (ML) používa pravdepodobnostné metódy skúša všetky možné stromy (topológia, dĺžka vetiev) časovo náročná vyžaduje substitučný model umožňuje zohľadniť viac evolučných ukazovateľov v rodokmeňoch
Metódy založené na vzdialenostiach používa počet zmien v každom páre sekvencií “susedné“ sekvencie predstavujú najmenší počet zmien Metódy Fitch and Margoliash UPGMA (Unweighted Pair Group Method With Arithmetic Mean)
Matica vzdialeností
Metóda Fitch and Margoliash Porovnáva “najbližšie“ taxóny s priemerom ostatných taxónov, potom počíta hodnoty medzi menej príbuznými taxónmi, až kým nenájde všetky vzdialenosti. Neberie v úvahu molekulárne hodiny, výsledkom sú rôzne dĺžky vetiev.
Konštrukcia stromu(1) Nakreslíme tri možné usporiadania nezakoreneného stromu
Konštrukcia stromu(2) Na základe najmenej vzdialených sekvencií v tabuľke vyberieme najpravdepodob-nejšie usporiadanie stromu
Konštrukcia stromu(3) Označíme vetvy stromu
Konštrukcia stromu(4) – výpočet vzdialeností d(O,P)= o + p = 12 d(O,avgMN)= o + [q + (m + n)/2] = 27.5 d(P,avgMN)= p + [q + (m + n)/2] = 29.5 odpočítame d(O,avgMN) od d(P,avgMN):
Konštrukcia stromu(4) – výpočet vzdialeností {p + [q + (m + n)/2]} - {o + [q + (m + n)/2]} = 29.5 -27.5 p -o = 29.5 -27.5 = 2 p = o + 2 d(O,P)= o + p = 12 o + (o + 2) = 12 2o = 10 o = 5 Teda máme o = 5, p = o+2 = 7 To isté pre M a N, dostaneme m = 6, n = 9.
Konštrukcia stromu(4) – výpočet vzdialeností Máme o=5, p=7, m=6, n=9, chceme q. Dosadíme do jednej z rovníc: d(P,avgMN)= p + [q + (m + n)/2] = 29.5 d(P,avgMN)= 7 + [q + 15/2] = 29.5 q + 7.5 = 22.5 q = 15
Metóda UPGMA(1) Predpokladá, že rýchlosť zmien je konštantná (Hypotéza molekulárnych hodín) a vzdialenosti spĺňajú podmienku: d(x, z) ≤ max{d(x, y), d(y, z)} (silná trojuholníková alebo ultrametrická nerovnosť).
Metóda UPGMA(2) o + p = 12 o = p= 12/2 = 6 m + n = 15 Vypočítame priemernú vzdialenosť q od všetkých sekvencií: (MO + MP + NO + NP)/4 = (26 + 28 + 29 + 31)/4 = 28.5 q1 + 7.5 = 14.25 q1 = 6.75 q2 + 6.0 = 14.25 q2 = 8.25 Therefore, q = q1 + q2 = 15
Metóda UPGMA(3)
Ďalšie metódy tvorby stromov Presné metódy Vyčerpávajúce hľadanie (exhaustive search, implicit enumeration) Branch-and-bound (ohraničovanie vetiev) Heuristické algoritmy Pridávanie po krokoch Približné metódy, ktoré však nezaručujú nájdenie najkratšieho stromu Úpravy počiatočných stromov Výmena vetiev (branch swapping)
Vyčerpávajúce hľadanie (1)
Vyčerpávajúce hľadanie (2) Má zmysel cca do 11 taxónov
Vyčerpávajúce hľadanie (3)
Branch-and-bound (ohraničovanie vetiev) heuristickou metódou sa nájde suboptimálny strom, ktorý slúži ako východiskové kritérium pri počte taxónov do 25
Heuristické algoritmy – Pridávanie po krokoch B C Najprv sa spoja tri objekty Potom sa náhodne vyberie štvrtý a postupne sa pridáva k trom existujúcim vetvám Jednotlivé stromy sa posudzujú podľa optimalizačného kritéria a jeden alebo viaceré najkratšie sa ponechajú do ďalšieho kola, kde sa pridáva piaty objekt, atď.
Výmena vetiev(1) Výmena susedných objektov (nearest neighbour interchange - NNI)
Výmena vetiev(2) Prerezávanie vetiev (podstromov) a vrúbľovanie (roubování) – subtree pruning and regrafting (SPR)
Výmena vetiev(3) Delenie a znovuspájanie stromov – tree bisection and reconnection (TBR)
Porovnávanie fylogen. stromov – pojmy (1) Konsenzuálny strom (consensus tree) zobrazuje mieru zhodnosti stromov väčšinové stromy (majority-rule) striktné stromy (strict consensus)
Porovnávanie fylogen. stromov – pojmy (2) Agreement subtree podstrom rovnaký pre 2 a viac stromov Greatest Agreement subtree (GAS) AS s najväčším počtom listov
Porovnávanie fylogen. stromov – pojmy (3) Triplet podstrom o troch listoch štruktúra zakoreneného stromu sa dá vyjadriť výčtom tripletov
Porovnávanie fylogen. stromov – pojmy (4) Triplety – využitie môže slúžiť ako báza na výpočet rozdielu medzi zakorenenými stromami rozdiel štruktúry stromov je počet rozdielnych tripletov Structural triplet difference(Tree1, Tree2) = 2
Porovnávanie fylogen. stromov – pojmy (4) Výmena susedných objektov (nearest neighbour interchange - NNI) používa sa pre výpočet rozdielu medzi nezakorenenými stromami, dá sa previesť na zakorenené stromy NNI difference je minimálny počet zmien potrebných na prevedenie jedného stromu na strom druhý
Porovnávanie fylogen. stromov – pojmy (5) Najbližší sused vetvy Dog je Bat a Cow Najbližší sused vetvy Ant je vetva Dog a vetva predka Bat/Cow Po 1 NNI kroku dostaneme aj strom rovnaký s Tree 2, teda NNI difference = 1
Porovnávanie fylogen. stromov - predpoklad Strom z neusporiadanými vetvami môže byť nakreslený s vetvami v rôznom poradí (vo fylogenetických stromoch to ale nevadí, dôležitá je štruktúra). To je výhodné na zobrazovanie spoločných a rozdielnych častí. Cieľom je nájsť také usporiadanie, aby taxóny dvoch stromov boli face-to-face.
Porovnávanie fylogen. stromov - metódy Minimum Triplet Difference (MTD) využíva Triplet difference Maximum Branch Similarity (MBS) All-But-n využíva GAS
MTD(1) – vzory Tripletov Keď ohodnotíme listy hodnotami (–,0,+) dostaneme 12 vzorov Tripletov. Triplet difference je počet tripletov, ktoré majú rôzne tripletové vzory medzi dvomi stromami.
MTD(2) Tripplet difference je 3
MTD(3) MTD algoritmus hľadá usporiadanie vetiev, ktoré minimalizuje triplet difference. Ak je takých usporiadaní viac, tak vyberieme ľubovolné
MTD(4) - výsledok Jedno z možných vyhovujúcich usporiadaní
Zdroje www.wikipedia.org http://www.bioinformaticsonline.org Wan Nazmee Wan Zainon & Paul Calder:Visualising Phylogenetic Trees http://www.natur.cuni.cz/~flegr http://libot.sav.sk/mater_Karol.htm