Podobnosť fylogenetických stromov

Slides:



Advertisements
Similar presentations
Ma.
Advertisements

Click on each of us to hear our sounds.
Building Phylogenies Parsimony 2.
ma mu mi mo me pe pi pa pu po si sa so.
MA. ME MI MO MU MÁ MÉ MÍ MÓ MŮ LA LE LI.
Hľadanie motívov v reťazcoch DNA
INTRANSNET Contract No. G7RT-CT
Example Bullet Point Slide
Fyzika a chemie společně CZ/FMP/17B/0456
Predstavenie Sféra, s.r.o. založená v r. 1992
VOĽNE DOSTUPNÝ REFERENČNÝ MANAŽÉR
Renesancia a humanizmus
CSP problém (problém rešpektujúci obmedzenia)
Prečo šimpanzy nevedia rozprávať?
Geografický informačný systém
INTERNATIONAL TRADE AND FORWARDING AGENTS
RIZIKÁ PRI REALIZOVANÍ PROJEKTU
Vývoj a druhy počítačov
DATABÁZOVÉ JAZYKY.
Ochrana potravín Tréningový kurz Co-financiado por:
Úloha diabetológa 1 Pôsobiť ako „bútľavá vŕba“ a často vedieť viac ako rodičia, im prefiltrovať iba najzávažnejšie informácie Mať vedomosti o aktivitách.
moni CAR Ing. Ján Cimba – moni CAR Kalinčiakova 17
METÓDY REGIONÁLNEJ GEOGRAFIE
Yulia Šurinová "There is always a better way; it should be found."
Makrá v PowerPointe Joshua Lajčiak.
Barbora Ondíková VII.D 2014/2015
Schémy financovania v 7RP
1. Úvod do operačného systému UNIX
Kladistika a další metody rekonstrukce evoluce
Vytvorenie bázy športových motívov, priestorov a hodnôt ich expozície.
Človek vo sfére peňazí ročník.
Porozumenie obrazu Sonka, Hlavac, Boyle: Image Processing, Analysis and Machine vision, kapitola: Image understanding.
aktivácia Vladimír Hricka License Sales Specialist Microsoft Slovakia
7. prednáška 3. november 2003.
Techniky parsimonickej analýzy pre veľké dátové súbory
Využitie IKT na hodinách anglického jazyka
Výučba cudzích jazykov
Ako sme pristúpili k citlivej téme migrácie v našej škole
Skrutkovica na rotačnej ploche
Vlastnosti kvantitatívnych dát
Ing. Róbert Chovanculiak, Ph.D. INESS
História vzniku internetu
Šifrovanie Dešifrovanie
Ako manažovať smartfóny z cloudu TechDays East 2014
Základné princípy strojového učenia
Metóda Konečných Prvkov vo výrobných technológiach
Dvojrozmerné polia Kód ITMS projektu:
Kvantovanie - metódy.
Lokálne príznaky vo farebných obrazoch
PRACOVNÉ PROSTREDIE PRI PRÁCI S POČÍTAČMI Z HĽADISKA ERGONÓMIE
Vysoko subjektívna prezentácia o používaní podcastov
Čo v súčasnosti vieme o HPV?
Heuristické optimalizačné procesy
Heuristické optimalizačné procesy
Zásady hygieny pri stolovaní
Ing. Anita Sáreníková/ Cvičenia z aplikovanej informatiky
Veľkosť trhu agentúrnych zamestnancov
De Bonových 6 klobúkov myslenia
Prečo je variabilita vhodným ukazovateľom rizika
Seminár č. 9 - osnova Metódy sieťového plánovania a riadenia:
Dejiny biológie.
Workshop DSpace 5, VŠB-TUO,
Ponúkame: poradenstvo technickú podporu - help desk školenia
Interaktívna kniha a e-learningový systém pre deti - Opera nehryzie
Termonukleárna fúzia a Studená fúzia.
8. prednáška 10. november 2003.
Neformálne ekonomické fórum 3. marec 2011
Inkrementálne učenie na konvolučných neurónových sieťach
Využitie biomasy v environmentálnych biotechnológiách
...bzučanie miliónov plastických koliesok
Presentation transcript:

Podobnosť fylogenetických stromov Jana Lukešová

O čom to bude fylogenetické stromy metódy fylogenetickej analýzy tvorba fylogenetických stromov porovnávanie fylogenetických stromov

Základné pojmy Fylogenéza Fylogenetická analýza Fylogenetický strom vývoj druhov v evolučnom procese (vzťahy) Fylogenetická analýza hľadá vzťahy medzi sekvenciami génov, proteínov Fylogenetický strom zobrazuje výsledky fylogenetickej analýzy, možný priebeh evolúcie

Z biológie Proteín (bielkovina) Gén Genóm organická zlúčenina zložená z aminokyselín Gén pomenovaný úsek DNA so špecifickou funkciou kóduje bielkovinu Genóm kompletná genetická informácia

Evolúcia Gény Mutácie frekvencia génu/alely polymorfné -> alely frekvencia génu/alely mení sa v priebehu evolúcie v dôsledku prirodzeného výberu Mutácie pozitívne / negatívne / neutrálne somatické / zárodočné

Fylogenetické stromy oblasť analýzy Systému popisuje vzťahy medzi taxónmi (systematická jednotka) najlepší prostriedok na vizuálnu reprezentáciu evolučných vzťahov medzi organizmami

Fylogenetické stromy-pojmy Vetva - vzťah medzi taxónmi (predok-potomok) Dĺžka vetvy – počet zmien v rámci danej vetvy Uzol – vyhynutý alebo žijúci druh Clade (klád) – skupina dvoch alebo viac taxónov / sekvencií proteínov / sekvencií DNA Vzdialenosť – počet zmien medzi organizmami / sekvenciami Topológia – usporiadanie vetiev

Fylogenetické stromy - typy škálované počet evolučných zmien, čas (molekulárne hodiny)

Fylogenetické stromy - typy neškálované nezohľadňujú počet evolučných zmien, udávajú len “dátum“, kedy vznikla daná vetva / taxón

Fylogenetické stromy - typy bez roota

Fylogenetická analýza Genómy sa menili mutáciami. Počet zmien nukleotidov medzi genómami rôznych organizmov môže udávať vývoj rozdielov v čase. (timing of genome divergence) Porovnávaním rôznych genómov môžeme odhaliť evolučné vzťahy.

Fylogenetická analýza - predpoklady Sekvencie neobsahujú chyby pochádzajú od známeho zdroja sú homologické (spoločný predok, rôzna funkcia) každá sekvencia má spoločnú fylogentickú históriu s ostatnými

Hypotéza molekulárnych hodín zmeny v sekvenciách sa objavujú v pravidelných intervaloch intervaly sú u rôznych druhov a génov rozdielne kalibrujú sa pomocou fosílií, aby sa určila doba vzniku kládu

Fylogenetická analýza - metódy Maximálna parsimónia strom s najmenším možným počtom evolučných zmien Metódy založené na vzdialenostiach Bayesovský prístup Metóda maximálnej pravdepodobnosti (Maximum likelihood) najpravdepopodobnejší priebeh evolúcie

Fylogenetická analýza -kroky Zarovnanie - Multiple Sequence Alignment (MSA) Určiť substitučný model Postavenie stromu Ohodnotenie stromu

MSA

MSA – metódy výpočtu Dynamické programovanie Heuristiky Iteratívne metódy Hidden Markove modely (pravdepodobnostná metóda) Genetické algoritmy

Maximálna parsimónia strom s najmenším možným počtom evolučných zmien vyžaduje MSA vhodná pre malý počet podobných sekvencií náročné na výpočet aj čas software: PHYLIP, PAUP

Metóda maximálnej pravdepodobnosti (ML) používa pravdepodobnostné metódy skúša všetky možné stromy (topológia, dĺžka vetiev) časovo náročná vyžaduje substitučný model umožňuje zohľadniť viac evolučných ukazovateľov v rodokmeňoch

Metódy založené na vzdialenostiach používa počet zmien v každom páre sekvencií “susedné“ sekvencie predstavujú najmenší počet zmien Metódy Fitch and Margoliash UPGMA (Unweighted Pair Group Method With Arithmetic Mean)

Matica vzdialeností

Metóda Fitch and Margoliash Porovnáva “najbližšie“ taxóny s priemerom ostatných taxónov, potom počíta hodnoty medzi menej príbuznými taxónmi, až kým nenájde všetky vzdialenosti. Neberie v úvahu molekulárne hodiny, výsledkom sú rôzne dĺžky vetiev.

Konštrukcia stromu(1) Nakreslíme tri možné usporiadania nezakoreneného stromu

Konštrukcia stromu(2) Na základe najmenej vzdialených sekvencií v tabuľke vyberieme najpravdepodob-nejšie usporiadanie stromu

Konštrukcia stromu(3) Označíme vetvy stromu

Konštrukcia stromu(4) – výpočet vzdialeností d(O,P)= o + p = 12 d(O,avgMN)= o + [q + (m + n)/2] = 27.5 d(P,avgMN)= p + [q + (m + n)/2] = 29.5 odpočítame d(O,avgMN) od d(P,avgMN):

Konštrukcia stromu(4) – výpočet vzdialeností {p + [q + (m + n)/2]} - {o + [q + (m + n)/2]} = 29.5 -27.5 p -o = 29.5 -27.5 = 2 p = o + 2 d(O,P)= o + p = 12 o + (o + 2) = 12 2o = 10 o = 5 Teda máme o = 5, p = o+2 = 7 To isté pre M a N, dostaneme m = 6, n = 9.

Konštrukcia stromu(4) – výpočet vzdialeností Máme o=5, p=7, m=6, n=9, chceme q. Dosadíme do jednej z rovníc: d(P,avgMN)= p + [q + (m + n)/2] = 29.5 d(P,avgMN)= 7 + [q + 15/2] = 29.5 q + 7.5 = 22.5 q = 15

Metóda UPGMA(1) Predpokladá, že rýchlosť zmien je konštantná (Hypotéza molekulárnych hodín) a vzdialenosti spĺňajú podmienku: d(x, z) ≤ max{d(x, y), d(y, z)} (silná trojuholníková alebo ultrametrická nerovnosť).

Metóda UPGMA(2) o + p = 12 o = p= 12/2 = 6 m + n = 15 Vypočítame priemernú vzdialenosť q od všetkých sekvencií: (MO + MP + NO + NP)/4 = (26 + 28 + 29 + 31)/4 = 28.5 q1 + 7.5 = 14.25 q1 = 6.75 q2 + 6.0 = 14.25 q2 = 8.25 Therefore, q = q1 + q2 = 15

Metóda UPGMA(3)

Ďalšie metódy tvorby stromov Presné metódy Vyčerpávajúce hľadanie (exhaustive search, implicit enumeration) Branch-and-bound (ohraničovanie vetiev) Heuristické algoritmy Pridávanie po krokoch Približné metódy, ktoré však nezaručujú nájdenie najkratšieho stromu Úpravy počiatočných stromov Výmena vetiev (branch swapping)

Vyčerpávajúce hľadanie (1)

Vyčerpávajúce hľadanie (2) Má zmysel cca do 11 taxónov

Vyčerpávajúce hľadanie (3)

Branch-and-bound (ohraničovanie vetiev) heuristickou metódou sa nájde suboptimálny strom, ktorý slúži ako východiskové kritérium pri počte taxónov do 25

Heuristické algoritmy – Pridávanie po krokoch B C Najprv sa spoja tri objekty Potom sa náhodne vyberie štvrtý a postupne sa pridáva k trom existujúcim vetvám Jednotlivé stromy sa posudzujú podľa optimalizačného kritéria a jeden alebo viaceré najkratšie sa ponechajú do ďalšieho kola, kde sa pridáva piaty objekt, atď.

Výmena vetiev(1) Výmena susedných objektov (nearest neighbour interchange - NNI)

Výmena vetiev(2) Prerezávanie vetiev (podstromov) a vrúbľovanie (roubování) – subtree pruning and regrafting (SPR)

Výmena vetiev(3) Delenie a znovuspájanie stromov – tree bisection and reconnection (TBR)

Porovnávanie fylogen. stromov – pojmy (1) Konsenzuálny strom (consensus tree) zobrazuje mieru zhodnosti stromov väčšinové stromy (majority-rule) striktné stromy (strict consensus)

Porovnávanie fylogen. stromov – pojmy (2) Agreement subtree podstrom rovnaký pre 2 a viac stromov Greatest Agreement subtree (GAS) AS s najväčším počtom listov

Porovnávanie fylogen. stromov – pojmy (3) Triplet podstrom o troch listoch štruktúra zakoreneného stromu sa dá vyjadriť výčtom tripletov

Porovnávanie fylogen. stromov – pojmy (4) Triplety – využitie môže slúžiť ako báza na výpočet rozdielu medzi zakorenenými stromami rozdiel štruktúry stromov je počet rozdielnych tripletov Structural triplet difference(Tree1, Tree2) = 2

Porovnávanie fylogen. stromov – pojmy (4) Výmena susedných objektov (nearest neighbour interchange - NNI) používa sa pre výpočet rozdielu medzi nezakorenenými stromami, dá sa previesť na zakorenené stromy NNI difference je minimálny počet zmien potrebných na prevedenie jedného stromu na strom druhý

Porovnávanie fylogen. stromov – pojmy (5) Najbližší sused vetvy Dog je Bat a Cow Najbližší sused vetvy Ant je vetva Dog a vetva predka Bat/Cow Po 1 NNI kroku dostaneme aj strom rovnaký s Tree 2, teda NNI difference = 1

Porovnávanie fylogen. stromov - predpoklad Strom z neusporiadanými vetvami môže byť nakreslený s vetvami v rôznom poradí (vo fylogenetických stromoch to ale nevadí, dôležitá je štruktúra). To je výhodné na zobrazovanie spoločných a rozdielnych častí. Cieľom je nájsť také usporiadanie, aby taxóny dvoch stromov boli face-to-face.

Porovnávanie fylogen. stromov - metódy Minimum Triplet Difference (MTD) využíva Triplet difference Maximum Branch Similarity (MBS) All-But-n využíva GAS

MTD(1) – vzory Tripletov Keď ohodnotíme listy hodnotami (–,0,+) dostaneme 12 vzorov Tripletov. Triplet difference je počet tripletov, ktoré majú rôzne tripletové vzory medzi dvomi stromami.

MTD(2) Tripplet difference je 3

MTD(3) MTD algoritmus hľadá usporiadanie vetiev, ktoré minimalizuje triplet difference. Ak je takých usporiadaní viac, tak vyberieme ľubovolné

MTD(4) - výsledok Jedno z možných vyhovujúcich usporiadaní

Zdroje www.wikipedia.org http://www.bioinformaticsonline.org Wan Nazmee Wan Zainon & Paul Calder:Visualising Phylogenetic Trees http://www.natur.cuni.cz/~flegr http://libot.sav.sk/mater_Karol.htm