Филогенетические деревья Что это такое Общий план действий Программы, которые строят деревья The time will come, I believe, though I shall not live to.

Slides:



Advertisements
Similar presentations
Деревья (trees) «…великое Дерево Жизни заполняет земную кору своими мертвыми и сломанными ветвями и покрывает поверхность вечно ветвящимися и прекрасными.
Advertisements

Астрометрические каталоги К.В.Куимов, ГАИШ МГУ. Определение астрометрического каталога Астрометрический каталог – понятие неопределённое. Например, это.
Tree Reconstruction.
Работа выполнена учителем физики Паниной О. В. Руководитель:
Схема распределения грантов городам-участникам программы Тасис (TCAS) Экологические гранты для муниципалитетов.
IV семестр «Функция и эволюция» БЛОК 1 «Эволюция» – 4 занятия Молекулярная филогенетика. Задачи и подходы. Лекция- семинар, (АБР) Реконструкция.
« Использование двоичной системы счисления при составлении генеалогического дерева». Автор: Вербицкий Евгений Ученик МОУ «Лицей» 7 г класса.
Что такое K a, K n, K s, d N, d S ? Екатерина Ермакова Алматы, апрель 2006.
Системы с наследованием. Если систему можно представить в виде : Где - непрерывные функции, то такая система называется системой с наследованием. Математическое.
Расторгуев А.C., 545 группа Научный руководитель: Пименов А.А. Рецензент: ст. преп. Смирнова Е.А.
Системы отбора. Условные обозначения (1) (2) (3) (4) (5) (6) (7) Математическое моделирование процессов отбора2.
Елена Станиславовна Петрова Учитель-логопед высшей категории ГДОУ детский сад №47 комбинированного вида Фрунзенского района г. Санкт-Петербурга 2011 год.
Веремьёва Е. И.. Радиобиология — это самостоятельная комплексная, фундаментальная наука, состоящая из многих научных направлений, изучающая действие ионизирующих.
R1R2R3R4R5R6R7R1R2R3R4R5R6R7. Аксиома R 1. В пространстве существуют плоскости. В каждой плоскости пространства выполняются все аксиомы планиметрии.
Некомпенсаторное агрегирование и рейтингование студентов Авторы: Гончаров Алексей Александрович, Чистяков Вячеслав Васильевич. НФ ГУ ВШЭ 2010 год.
Подготовил: Евгений Дзень
Bank ownership and lending behavior Alejandro Micco, Ugo Panizza Politicians and banks: Political influences on government-owned banks in emerging markets.
Определение необходимого уровня запасов на складе.
Учитель математики Кулакова Т.М. МОУ ООШ №15 г.о Новокуйбышевск Самарской области Сентябрь 2011г.
Что называют химической реакцией? ? Перечислите условия протекания химических реакций. ?
Что за хулиган толкает пассажиров автобуса то вперед, то назад? Этот хулиган, вернее, хулиганка -
Обзор последних достижений биометрических методов аутентификации РусКрипто 2005.
ООП Классы – 2. Ссылки Ссылка – еще одно имя объекта. Используйте ссылки вместо указателя. Это более безопасно. Complex c(10,10); Complex c2& = c; c2+=10;
Алгоритмы на графах Представление графов Построение остовного дерева Нахождение компонент смежности Перебор в глубину и в ширину.
Функции IV. Биоинформатические ресурсы для работы с мембранными белками А.Б.Рахманинова (3 и 4 апреля 2007г.)
Блок 3. Семейства белков I. Множественное выравнивание Первый курс, весна 2008, А.Б.Рахманинова.
Анализ аминокислотной последовательности: паттерны, домены, семейства … или что, где и как искать?
Решение задач на движение
1 Генерация контекстных ограничений для баз данных Выполнил: Жолудев В. Научный руководитель: Терехов А.Н. Рецензент: Иванов А.Н.
BLAST Что такое выравнивание Выравнивание 2х последовательностей
Основы цифровой обработки речевых сигналов. Общая схема процесса речеобразования x[n] – дискретные отсчеты сигнала возбуждения y[n] – дискретные отсчеты.
Growing Neural Gas Method Нейросетевой метод построения неструктурированных адаптивных сеток.
Сравнение различных методов хранения XML в реляционных базах данных и в разных системах. Нгуен Тхань Хуен- 545 группа Руководитель : Б.А. Новиков Рецензент:
А.Б. Рахманинова (13 апреля 2010 г.) Факультет Биоинженерии и Биоинформатики, 2 курс, весенний семестр Функции Мембранные белки. Транспортные белки.
Деревья курс «Алгоритмы и структуры данных» Отделение Программной инженерии.
Деревья (trees) «…великое Дерево Жизни заполняет земную кору своими мертвыми и сломанными ветвями и покрывает поверхность вечно ветвящимися и прекрасными.
"The European Molecular Biology Open Software Suite"
Лобанов Алексей Иванович Основы вычислительной математики Лекция 1 8 сентября 2009 года.
Множественные выравнивания как метод исследования Материалы к занятиям IV блока курса биоинформатики, 2006 А.Б.Рахманинова.
Множественные выравнивания Зачем все это нужно? Глобальные множественные выравнивания – основы алгоритма, программы Где искать на Web? Можно ли редактировать.
Д.А. Равчеев (14 апреля 2009 г.) Факультет Биоинженерии и Биоинформатики, 2 курс, весенний семестр Функции Трансмембранные белки.
Деревья и их представление в STL Презентацию подготовила Чиркова Ольга, 2 подгруппа, группа 271ПИ.
3. Сравнение пространственных структур белков. Выравнивание последовательностей гомеодоменов Пример 1: гомеодомены.
Тема: Сравнительный анализ сложности факторизации алгоритмов целых чисел Выполнила: Дубовицкая Н.В., гр 957 Научный руководитель: Ишмухаметов Ш.Т.
Кураева Екатерина Анатольевна, заместитель директора по УВР, учитель математики сш № 29.
Swiss-Prot – одна из первых баз данных белковых последовательностей, “gold standard” белковой аннотации. Аннотация выполнена вручную группой профессиональных.
Маршрут, цепь, цикл Маршрутом называют последовательность вершин и ребер, в которой любые два соседних элемента инцидентны (т.е. соединены). Например:
Моделирование будущего с помощью Динамического Финансового Анализа
Методы анализа данных. Статистическая проверка гипотез.
Деревья (trees) «…великое Дерево Жизни заполняет земную кору своими мертвыми и сломанными ветвями и покрывает поверхность вечно ветвящимися и прекрасными.
Формализованы ли цели? Устраивает ли вас команда? Каковы этапы процесса? Изменение ИТ структуры? Нужны подрядчики? 1.
Как найти последовательность, кодирующую Ваш белок? Как найти последовательность ДНК, кодирующую Ваш белок: – Ссылки из белковых баз данных – Прямой поиск.
Cравнение биологических последовательностей А.Б.Рахманинова, 2008.
ВВЕДЕНИЕ В ВЫЧИСЛИТЕЛЬНУЮ МАТЕМАТИКУ Лекция 5 6 октября 2009 ВЫЧИСЛИТЕЛЬНАЯ ЛИНЕЙНАЯ АЛГЕБРА.
Хобби-мастерская рисунки на асфальте Подготовили: Коваленко Денис и Кульбарисова Саша.
Множественное выравнивание С.А.Спирин, весна
Классификация, кластеризация и поиск изображений на основе низкоуровневых характеристик Наталья Васильева Руководитель: Новиков Б. А.
XML Схемы XML документов. XML Schema созданая Microsoft позволяет избавиться от DTD блоков. Основа – использование пространств имен и очень точная типизация.
Обработка исключений в C# Единая техника обнаружения ошибок времени выполнения и передачи информации о них.
Phylogenetic trees School B&I TCD Bioinformatics May 2010.
Phylogenetic Trees  Importance of phylogenetic trees  What is the phylogenetic analysis  Example of cladistics  Assumptions in cladistics  Frequently.
Алгебра логики это раздел математики, изучающий высказывания, рассматриваемые со стороны их логических значений (истинности или ложности) и логических.
Why do trees?. Phylogeny 101 OTUsoperational taxonomic units: species, populations, individuals Nodes internal (often ancestors) Nodes external (terminal,
1 CAP5510 – Bioinformatics Phylogeny Tamer Kahveci CISE Department University of Florida.
Применение графического метода для решения различных математических задач Учитель гимназии №3 Шахова Т. А.
Multiple Alignment, Distance Estimation, and Phylogenetic Analysis
Прогнозирование физико-химических свойтсв органических соеденений на основнании их химических строения экпериментально- статисттческими методами Органикалық.
* Любой табак кроме WTO Депозит берется в течение 20 мин, как подошли все гости* В депозит входят все позиции в меню* Депозит не возвращается*
10 интересных фактов о Японии и Японцах. В состав Японии входит островов. При этом четыре наиболее крупных из них - Кюсю, Хонсю, Хоккайдо и Сикоку,
Presentation transcript:

Филогенетические деревья Что это такое Общий план действий Программы, которые строят деревья The time will come, I believe, though I shall not live to see it, when we shall have fairly true genealogical trees of each great kingdom of Nature. Charles Darwin

Что такое филогенетическое дерево? Филогения - раздел биологии, изучающий родственные взаимоотношения разных групп живых организмов. Филогению отображается обычно в виде "эволюционных древ" или систематических названий. Филогенетика (=молекулярная филогенетика) – те же взаимоотношения, но на уровне отдельных белковых (генных) семейств

Зачем нужны филогенетические деревья? Биологические задачи:  сравнение 3-х и более объектов (кто на кого более похож.... )  реконструкция эволюции ( кто от кого, как и когда произошел…)

Реальные события : Данные: Построенное дерево эволюция в природе или в например, древовидный граф, лаборатории, а.к. последо- вычисленный на основе компьютерная симуляция вательности или данных, может количество отражать или не щетинок отражать реальные события >Seq4 GCGCTGFKI..... >Seq1 ASGCTAFKL... >Seq3 GCGCTLFKI ACGCTAFKI GCGCTAFKI ACGCTAFKL A -> G I -> L

Основные термины Узел (node) — точка разделения предковой последовательности (вида, популяции) на две независимо эволюционирующие. Соответствует внутренней вершине графа, изображающего эволюцию. Лист (leaf, OTU – оперативная таксономическая единица) — реальный (современный) объект; внешняя вершина графа. Ветвь (branch) — связь между узлами или между узлом и листом; ребро графа. Корень (root) — гипотетический общий предок. Клада (clade) - группа двух или более таксонов или последователь- ностей ДНК, которая включает как своего общего предка, так и всех его потомков.

Какие бывают деревья? Бинарное (разрешённое) (в один момент времени может произойти только одно событие ) Небинарное (неразрешённое) (может ли в один момент времени произойти два события? ) Время

Какие бывают деревья? Укорененное дерево (rooted tree) отражает направление эволюции Неукорененное (бескорневое) дерево (unrooted tree) показывает только связи между узлами Время Если число листьев равно n, существует (2n-3)!! разных бинарных укоренных деревьев. По определению, (2n-3)!! = 1·3 ·... ·(2n-3) Существует (2n-5)!! разных бескорневых деревьев с n листьями

Рутинная процедура, или как строят деревья? Составление выборки последовательностей Множественное выравнивание Построение дерева фрагмент записи в виде скобочной формулы: Визуализация и редактура дерева (((((con101: ,(f53969: ,((f67220: , max4: ): ,con92: ): ): ): ,

(((C:3.2,D:8.0):5.5,E:7.7):5.2,(A:6.1,B:6.3):7.5); длины ветвей (((C,D),E)),(A,B)); только топология Скобочная формула (Newick format) A B C D E

Как выбирать последовательности для дерева? Кроме случаев очень близких последовательностей, проще работать с белками (а не с ДНК) Придерживайтесь небольшой выборки (< 50 последовательностей) Избегайте: –фрагментов; –ксенологов; –рекомбинантных последовательностей; –многодоменных белков и повторов Используйте outgroup (последовательность, ответвившаяся от общего предка заведомо (но минимально!) раньше разделения интересующих групп-клад)

Самое главное – хорошее выравнивание! Максимальный вклад в финальное дерево: нельзя построить хорошее дерево по плохому выравниванию Блоки, содержащие много гэпов, плохо выровненные N- и C- концы можно просто вырезать.

Основные алгоритмы построения филогенетических деревьев Методы, основанные на оценке расстояний (матричные методы): Вычисляются эволюционные расстояния между всеми листьями (OTUs) и строится дерево, в котором расстояния между вершинами наилучшим образом соответствуют матрице попарных расстояний. UPGMA Neighbor-joining Минимальная эволюция Квартеты («топологический»)... Наибольшего правдоподобия, Maximal likelihood, ML Используется модель эволюции и строится дерево, которое наиболее правдоподобно при данной модели Максимальной экономии (бережливости), maximal parsimony, MP Выбирается дерево с минимальным количеством мутаций, необходимых для объяснения данных

Пример матрицы расстояний HUMAN HORSE RABIT MOUSE RAT BOVIN PIG CHICK 8 Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами? Как время, в течение которого они эволюционировали Как число «эволюционных событий» (мутаций) В первом случае объекты образуют ультраметрическое пространство (если все объекты наблюдаются в одно время, что, как правило, верно) Но время непосредственно измерить невозможно

Гипотеза «молекулярных часов» (E.Zuckerkandl, L.Pauling, 1962) За равное время во всех ветвях эволюции накапливается равное число мутаций Если гипотеза молекулярных часов принимается, число различий между выровненными последовательностями можно считать примерно пропорциональным времени. Отклонения от ультраметричности можно считать случайными. Эволюция реконструируется в виде ультраметрического дерева. Укоренённое дерево называется ультраметрическим, если расстояние от корня до любого из листьев одинаково.

UPGMA Unweighted Pair Group Method with Arithmetic Mean разновидность кластерного метода Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Гипотеза молекулярных часов не всегда справедлива ABC D E (длина ветвей пропорциональна числу мутаций)

Недостатки UPGMA Алгоритм строит ультраметрическое дерево, а это означает, что скорость эволюции предполагается одинаковой для всех ветвей дерева. Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости «молекулярных часов»). Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining, NJ) Строит неукоренённое дерево Может работать с большим количеством данных Достаточно быстрый Хорошо зарекомендовал себя на практике: если есть недвусмысленное с точки зрения эксперта дерево, то оно будет построено. Могут появиться ветви с длиной <0

Метод Neighbor-joining Рисуем «звездное» дерево и будем «отщипывать» от него по паре листьев Пусть u i = Σ k M ik /(n-2) — среднее расстояние от листа i до других листьев 1. Рассмотрим все возможные пары листьев. Выберем 2 листа i и j с минимальным значением величины M ij – u i –u j т.е. выбираем 2 узла, которые близки друг к другу, но далеки ото всех остальных.

Метод ближайших соседей (Neighbor-joining, NJ) 2. Кластер (i, j) – новый узел дерева Расстояние от i или от j до узла (i,j): D(i, (i,j)) = 0,5·(Mij + ui – uj) D(j, (i,j)) = 0,5· (Mij + uj – ui) т.е. длина ветви зависит от среднего расстояния до других вершин 3. Вычисляем расстояние от нового кластера до всех других M(ij)k = Mik+Mjk – Mij 2 5. В матрице М убираем i и j и добавляем (i, j). Повторяем, пока не останутся 3 узла...

Стандартная ситуация Понимаем расстояние как число мутаций Реальное (неизвестное нам) дерево — укоренённое, но не ультраметрическое Мы реконструируем неукоренённое дерево (топологию и длины ветвей). Его надо понимать как множество всех возможных укоренений. Если данные таковы, что гипотеза молекулярных часов не проходит, то реконструкция укорененного дерева намного менее надёжна, чем реконструкция неукоренённого

Как изобразить дерево? Топология дерева Топология дерева — только листья, узлы, (корень) и связывающие их ветви (топология не зависит от способа изображения дерева) A B C D E ABCDE Два изображения одной и той же топологии

Филограмма: Длина ребер пропорциональна эволюционному расстоянию между узлами. Кладограмма: представлена только топология, длина ребер игнорируется. Arabidopsis Caenorhabditis Drosophila Anopheles Tenebrio Trout Mus 0.1 substitutions per site Arabidopsis Caenorhabditis Drosophila Anopheles Tenebrio Trout Mus Как можно нарисовать построенное дерево?

Достоверность топологии. Bootstraps Создадим псевдоданные: N множественных выравниваний той же длины, что и исходное, каждое из псевдовыравниваний - случайный набор столбцов из исходного (выборка с возвращением!) Построим N деревьев: на каждой внутренней ветви отметим долю случаев из N, в которых появлялся этот узел. Обычно верят в топологию, если метки ветвей на бутстрепном дереве больше 70-80%. Если меньше 50%, то не верим. В иных случаях – думаем… Есть множественное выравнивание и построенное по нему дерево. Верим ли мы в топологию дерева?

Какие on-line программы строят деревья? ClustalW. “Tree type” – nj, phylip: строит только методом NJ, но результат – в разных форматах, no bootstraps Phylip (Felsenstein, 1993) – пакет программ для построения филогенетических деревьев (stand-alone) On-line (partly): например, PAUP ( Phylogenetic Analysis Using Parsimony)

Phylip

Пакет Phylip protdist — оценка эволюционных расстояний между белковыми последовательностями (вход — множественное выравнивание, выход — матрица попарных расстояний) dnadist — то же для нуклеотидных посл-тей protpars – оценка числа нуклеотидных мутаций для наблюдаемой частоты белковых замен (близкие последовательности) neighbor — реконструкция филогении по матрице расстояний методами NJ и UPGMA drawtree — рисование неукоренённого дерева drawgram — рисование кладограмм и филограмм

Bootstrapping with Phylip Надо выбрать Bootstrap options еще в protdist, выставить не менее 100 итераций, нечетное число в “Random number of seed” Затем, при запуске “Neighbor” снова выбрать “Bootstrap options” и выставить указанное в пред. пункте количество наборов данных и отметить “Compute a consensus tree”

Общий план действий с пакетом Phylip Множественное выравнивание -> protdist Bootstrap options - ? Результат – или сразу, или URL по (предлагают продолжить с программой построения дерева) Выбрать Neighbor, Neighbor-Joining, Boostrap…?, outgroup – позиция outgroup в выравнивании Выход: outfile.consense – текстовый рисунок + outtree.consense – в Newick формате Представление дерева в графическом режиме одной из программ – Drawtree или Drawgram (без bootstraps) - или другими программами

Outtree.consense

Как красиво представить получившееся дерево?

MEGA: филогенетический анализ последовательностей

To start Расширение – “.fas” (нуклеотиды или аминокислоты). Надо конвертировать в “mega”формат (из текстового редактора)

MEGA: Web Browser Выбрать в FASTA или GenBank формат; Send to Text; И затем “Add to alignment”

Sequence data explorer Можно анализировать подвыборку как по последовательностям, так и по позициям; считает статистику кодонов, вариабельные, консервативные сайты, синглетоны и сайты, информативные для парсимонии, 0-, 2- и 4- вырожденные сайты; можно также анализировать статистику белка; можно (не) анализировать отдельные домены

Построение выравниваний Множественное выравнивание ClustalW; выравнивание на уровне белка А также – анализировать прямо хроматограммы с секвенаторов; Выбирать последовательности из результатов бласта; Искать мотивы в последовательностях и т.п. МОЖНО РЕДАКТИРОВАТЬ ВЫРАВНИВАНИЯ!!!!

Построение деревьев Distance Matrix Explorer – можно посмотреть попарные расстояния, ошибку их вычисления, вычислить всевозможные средние Деревья – bootstrap, тесты на относительную скорость эволюции, на внутренние ветви. Пока нет Maximum Likelihood – будет в следующей версии (если надо прямо сейчас; on-line – PhyML,

Tree Explorer Можно нарисовать дерево в разных формах, редактировать дерево разнообразно; построить “консенсусное дерево”; оценить время расхождения при гипотезе молекулярных часов; оценить, какой нуклеотид или аминокислота в какой вершине и т.п.

Подписи к рисункам Перечисление необходимых параметров, которые использовались, а также правильные ссылки