Ortoloogide ennustamine Automaatsed meetodid
definitsioonid Homoloogid – on geenid, mis omavad ühtset evolutsioonilist eellast. Ortoloogid – kui vaadeldavad kaks liiki on tekkinud samast eellasest ja neil on säilinud sama geen, mis nende eellasl, siis neid geene “uutes liikides” nimetatakse ortoloogideks. e. eri liikides olevaid samast eellasest pärinevaid geene. Omavad sarnast funktsiooni Paraloogid – samast liigist pärit geenid, millel on ühine eellane. Tavaliselt tekkinud geenide duplikatsiooni tulemusena. Hiljuti tekkinud paraloogid – omavad sarnast funktsiooni e. In-paraloogid Ammu tekkinud paraloogid – funktsioon on erinev e. Out-paraloogid
Miks? Otsitakse eri organismide sarnase funktsiooniga valke. Abiks genoomide annoteerimisel Geeni/valgu perekondade leidmisel Aitab kindlaks teha geenide horisontaalset ülekannet
Kuidas ? Vaja on võrrelda kahe genoomi valgud omavahel ja iseendaga. Genoomide A ja B puhul: A A B B A B B A Leitakse sarnaseimad paarid genoomide vahel. Püütakse grupeeride vältides ülekattumisi.
Võimalused ja piirangud Kahe järjestuse võrdlemine Järjestusi on palju – kaks genoomi ca 20 000 seq Blast Kiire - otsib lokalset srnasust - skoor sõltub etteantud järjestuste järjekorrast Clustalw – aeglane, joondaise pealt saab arvutada evolutsioonilist kaugust ja joonistada puid rdp – reciprocal best hit: otsing tuleb teostada mõlemat pidi ja leida parim skoor paaride a b ja b a vahel rsd – reciprocal smallsest distance
Võimalused ja piirangud gruppide leidmine Ortoloogsete gruppide leidmine Grupp peaks haarama kõik sama funktsiooni kandvaid geene ortoloogid in-paraloogid Grupp ei tohi sisaldada valesid positiivseid Grupid ei tohi kattude Clustering of additional orthologs (in-paralogs). Each circle represents a sequence from species A (black) or species B (grey). Main orthologs (pairs with mutually best hit) are denoted A1 and B1. Their similarity score is shown as S. The score should be thought of as reverse distance between A1 and B1, higher score corresponding to shorter distance. The main assumption for clustering of in-paralogs is that the main ortholog is more similar to in-paralogs from the same species than to any sequence from other species. On this graph it means that all in-paralogs with score S or better to the main ortholog are inside the circle with diameter S that is drawn around the main ortholog. Sequences outside the circle are classi®ed as out-paralogs. In-paralogs from both species A and B are clustered independently.
Võimalused ja piirangud gruppide leidmine Evolutsioonilise puu kasutamine Puu arvutamiseks on vaja järjestuste vahelisi kaugusi - globaalset alignmenti Clustalw aeglane Puu pealt ortoloogide leidmine on halvasti automatiseeritav
Ortoloogide andmebaasid OrthoMCL andmebaas http://www.cbil.upenn.edu/gene-family/ In Paranoid andmebaas www.cgb.ki.se/inparanoid/ COG andmebaas www.ncbi.nlm.nih.gov/COG TOGA andmebaas www.tigr.org/tdb/toga/toga.shtml
OrtoMCL Ortoloogsete gruppide automaatseks leidmiseks järjestuste võrdlemiseks kasutab WU Blast’i Klasterdamiseks Markov Cluster Lagoritmi MCL
Flow chart
Sarnasus maatriks Sarnasusmaatriksis blasti skoorid normaliseeritakse, et vältida in-paraloogide liiga suurte skooride mõju MCL algoritmile võrreldes ortoloogide omavahelise skooriga
Worm & Fly Table 1. Comparison of Ortholog Groups Identified by OrthoMCL vs. INPARANOID Total OrthoMCLa INPARANOID Grouped by both ()b Identical groups Coherent groups # Protein sequences 33,062 10,849 (33%) 11,357 (34%) 10,597 (98/93%) 8,629 (81%)c 10,229 (97%)c Fly data set 13,288 5,133 (39%) 5,550 (42%) 5,006 (98/90%) 4,058 (81%) 4,820 (96%) Wormdata set 19,774 5,716 (29%) 5,807 (29%) 5,591 (98/96%) 4,571 (82%) 5,409 (97%) # Groups 4,061 4,135 3,735 (92/90%)d 3,888 3,912e (96/95%)d a Using inflation index I = 1.5 (see text). b Percentages indicate percent of sequences grouped by either OrthoMCL (left) or INPARANOID (right). c Percent of sequences grouped by both OrthoMCL and INPARANOID. d Percent of OrthoMCL groups (left); percent of INPARANOID groups (right). e OrthoMCL groups entirely contained within INPARANOID groups (left); INPARANOID groups entirely contained within OrthoMCL groups (right).
Three-species Data Set
Kirjandus Li Li, Christian J. Stoeckert Jr., and David S. Roos "OrthoMCL: Identification of Ortholog Groups for Eukaryotic Genomes" Genom Res. 2003 Maido Remm1,2, Christian E. V. Storm1 and Erik L. L. Sonnhammer1 "Automatic Clustering of Orthologs and In-paralogs from Pairwise Species Comparisons" JMB 2001 Wall D.P. et al. "Detecting putative orthologs" Bioinformatics Appl notes 2003 v19 pp1710-1711
Lingid ortoloogide andmebaasidele OrthoMCL andmebaas http://www.cbil.upenn.edu/gene-family/ In Paranoid andmebaas www.cgb.ki.se/inparanoid/ COG andmebaas www.ncbi.nlm.nih.gov/COG TOGA andmebaas www.tigr.org/tdb/toga/toga.shtml