Presentation is loading. Please wait.

Presentation is loading. Please wait.

Множественные выравнивания как метод исследования Материалы к занятиям IV блока курса биоинформатики, 2006 А.Б.Рахманинова.

Similar presentations


Presentation on theme: "Множественные выравнивания как метод исследования Материалы к занятиям IV блока курса биоинформатики, 2006 А.Б.Рахманинова."— Presentation transcript:

1 Множественные выравнивания как метод исследования Материалы к занятиям IV блока курса биоинформатики, 2006 А.Б.Рахманинова

2 Повторяем… Зачем строят выравнивания аминокислотных последовательностей? Данные: новая последовательность Биологические задачи: Предсказание функции, а.к. остатков в «активном центре» Предсказание 3D-структуры Реконструкция эволюции Общий подход к решению — оценка сходства последова- тельностей: Выбор алгоритма и программы Построение выравнивания Анализ выравнивания

3 Какое выравнивание интереснее?

4 Повторяем… Какие бывают выравнивания аминокислотных последовательностей? Выравнивания парные множественные глобальныелокальные глобальныелокальные классический алгоритм Нидельмана-Вунша, см. needle из EMBOSS, алгоритм Маейрса- Миллера, см. stretcher из EMBOSS ……… классический алгоритм Смита-Ватермана, см. matcher, water из EMBOSS …….. Динамическое программирование Carillo& Lipman, см MSA Эвристические алгоритмы прогрессивного выравнивания, см. ClustalX, emma в EMBOSS, muscle, T-Coffee, ……. Dialign, ProDA

5 Какие выравнивания строит программа BLASTP? BlastP (Basic Local Alignment Search) – программа для быстрого поиска в БД последовательностей, похожих на заданную. Программа строит локальные выравнивания, но не гарантирует, что это будут оптимальные выравнивания!

6 Зачем нужны множественные выравнивания? http://www.ebi.ac.uk/thornton-srv/databases/cgi-bin/pdbsum/GetPage.pl?pdbcode=1QPZ

7 Построение парного выравнивания по алгоритму Нидельмана- Вунша (пример из упр. студента ФББ) Можно найти самое лучшее выравнивание за время t seq1: MA-RR seq2: CADRQ при условии,что вес совпадения: 2 вес замены: -1 штраф за делецию: -2 В чем проблема? Построение множественного выравнивания N последовательностей t =L N !!!

8 Алгоритм ClustalW – пример эвристического прогрессивного алгоритма Руководящее дерево Очевидные недостатки: 1)Результат зависит от порядка выравниваний; 2)«один раз гэп – всегда гэп»

9 Современные методы построения множественного выравнивания (MSA, multiple sequence alignment): Алгоритм ClustalW (реализации ClustalX, emma из EMBOSS) – до сих пор самый популярный, но уже устаревший метод. muscle (программа установлена на kodomo) – быстрее и немного точнее. T-COFFEE – заметно точнее, но существенно медленнее

10 Построение множественных выравниваний и их анализ Развитие представлений об эволюции белков Создание коллекций мотивов в аминокислотных последовательностях

11 Biologists must constantly keep in mind that what they see was not designed, but rather evolved. It might be thought, therefore, that evolutionary arguments would play a large part in guiding biological research, but this is far from the case. Francis Crick What Mad Pursuit (1988) pp.138-139

12 Мутации, рекомбинация, …. ?

13 Точечные мутации и их последствия ATAAAGGTCCTGATAAAG GT A CTG «молчащая» мутация IleLysValLeuIleLysValLeu ATAAAGGTCCTGATAAAG T T TC CTG замена а.к.остатка IleLysValLeuIleLysPheLeu ATAAAGGTCCTGATA T T AG GTCCTG терминация трансляции IleLysValLeuIleTer ATAAAGGTCCTGATAAAGTCCCT сдвиг рамки IleLysValLeuIleLysSer

14 Геномные перестройки: рекомбинации, транспозиции Следствие 1 - дупликации Кластер  –глобинов в 16-ой хромосоме человека Кластер  –глобинов в 11-ой хромосоме человека

15 Геномные перестройки: рекомбинации, транспозиции Следствие 2 – перемешивание (перетасовка) доменов 223 белка 243 белка 507 белков 25 белков 9 белков 2 белка 12 белков

16 Домен – единица эволюции, структуры и функции белков. Домен – компактная, относительно независимо сворачивающаяся структура, относительно консервативная в процессе эволюции. Белок может состоять из одного или многих доменов. nitrogen fixation positive activator protein

17 Вернемся к дупликации… Эволюция глобинов

18 Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка). Признаки гомологичности белков сходная 3D-структура в той или иной степени похожая аминокислотная последовательность разные другие соображения…

19 Гомологи Ортологи Паралоги Ксенологи ? ( W.M.Fitch, Syst.Zool.19,99(1970)

20 Ортологи — последовательности, возникшие из одного общего предшественника в процессе видообразования. Ортологи, как правило, имеют одну и ту же функцию Паралоги — последовательности, возникшие из одного общего предшественника в результате дупликации одного гена в одном организме. Паралоги, как правило, имеют разные функции.

21 Гэп – пропуск в последовательности Задача выравнивания = задача поиска сходства. Сходство — не то же cамое, что гомология !

22 Построение множественных выравниваний и их анализ Развитие представлений об эволюции белков Создание коллекций мотивов в аминокислотных последовательностях

23 Мотив ? Мотив в аминокислотной последовательности - набор консервативных остатков, важных для функции белка и расположенных на определенном (обычно коротком) расстоянии друг от друга в последовательности. Мотив структуры (структурный мотив) – часто встречающийся в белках элемент пространственной структуры (  - спираль,  -шпилька,  -поворот). В общем случае, структурные мотивы не обязательно соответствуют мотивам в аминокислотным последовательностях. Один домен может содержать один или несколько мотивов в аминокислотной последовательности. Мотив может не входить в домены. Не в любом выравнивании легко найти мотив.

24 Паттерн (pattern) – Позиционно специфическая матрица весов (PSSM) – Профиль–HМM - Подпись (signature) – «Oтпечатки пальцев» (fingerprints) – Кластер - Место, сайт(site) - Мотив (motif) – Домен (domain) – Семейство – Суперсемейство - Основные понятия и термины ?

25 Пример простого мотива Алкогольдегидрогеназа 6 (человек) 68 - 82: GHEgAGIvesiGegV Алкогольдегидрогеназа класса 3 (рис) 70 - 84: GHEaAGIvesvGegV Алкогольдегидрогеназа, специфичная к пропанолу (кишечная палочка) 57 - 71: GHEgIGVvaevGpgV Распознающее правило типа «паттерн»: G - H - E - x - {EL} - G - {AP} - x(4) - [GA] - x(2) - [IVSAC] Паттерн – регулярное выражение UNIX’a: Например, выражение [AC]-x-V-x(4)-{ED} читается как Ala или Cys- х-Val- х- х- х - х- (любой остаток, но не Glu и не Asp)

26 Более сложное распознающее правило – PSSM. Какая а.к. последовательность будет иметь максимальный вес по этому профилю? A -18 -10 -1 -8 8 -3 3 -10 -2 -8 C -22 -33 -18 -18 -22 -26 22 -24 -19 -7 D -35 0 -32 -33 -7 6 -17 -34 -31 0 E -27 15 -25 -26 -9 23 -9 -24 -23 -1 F 60 -30 12 14 -26 -29 -15 4 12 -29 G -30 -20 -28 -32 28 -14 -23 -33 -27 -5 H -13 -12 -25 -25 -16 14 -22 -22 -23 -10 I 3 -27 21 25 -29 -23 -8 33 19 -23 K -26 25 -25 -27 -6 4 -15 -27 -26 0 L 14 -28 19 27 -27 -20 -9 33 26 -21 M 3 -15 10 14 -17 -10 -9 25 12 -11 N -22 -6 -24 -27 1 8 -15 -24 -24 -4 P -30 24 -26 -28 -14 -10 -22 -24 -26 -18 Q -32 5 -25 -26 -9 24 -16 -17 -23 7 R -18 9 -22 -22 -10 0 -18 -23 -22 -4 S -22 -8 -16 -21 11 2 -1 -24 -19 -4 T -10 -10 -6 -7 -5 -8 2 -10 -7 -11 V 0 -25 22 25 -19 -26 6 19 16 -16 W 9 -25 -18 -19 -25 -27 -34 -20 -17 -28 Y 34 -18 -1 1 -23 -12 -19 0 0 -18

27 Pfam http://www.sanger.ac.uk/Software/Pfam/index.shtml Большая коллекция множественных выравниваний, доменов, семейств и профилей-HMM для них. Состоит из 2-х частей:  PfamA – курируемая часть, покрывает 74% UniProt  PfamB – большое число маленьких семейств из автоматически сгенерированной базы доменов ProDom, не вошедших в PfamA. Удобна для анализа доменной структуры белков.

28

29 Построение множественных выравниваний и их анализ Развитие представлений об эволюции белков Создание коллекций мотивов в аминокислотных последовательностях

30 Типичные задачки Описать доменную архитектуру заданной последовательности Сравнить доменную организацию нескольких белков Получить множественное выравнивание полных последовательностей заданной выборки, выделить консервативные позиции. *Сравнить множественные выравнивания, полученные с помощью разных инструментов. Получить множественное выравнивание определенных доменов белков заданной выборки, выделить консервативные а.о. Найти на множественном выравнивании возможный мотив. *Создать распознающее правило для найденного мотива и найти белки, удовлетворяющие этому правилу. Проверить, не соответствует ли найденный вами мотив уже известному мотиву. *Определить степень консервативности какого-либо остатка в заданном белке (например, степень консервативности остатков, контактирующих с лигандом)


Download ppt "Множественные выравнивания как метод исследования Материалы к занятиям IV блока курса биоинформатики, 2006 А.Б.Рахманинова."

Similar presentations


Ads by Google