3. Сравнение пространственных структур белков. Выравнивание последовательностей гомеодоменов Пример 1: гомеодомены.

Slides:



Advertisements
Similar presentations
Деревья (trees) «…великое Дерево Жизни заполняет земную кору своими мертвыми и сломанными ветвями и покрывает поверхность вечно ветвящимися и прекрасными.
Advertisements

Астрометрические каталоги К.В.Куимов, ГАИШ МГУ. Определение астрометрического каталога Астрометрический каталог – понятие неопределённое. Например, это.
Сравнительный анализ пространственных структур белков 3. Поверхность белка: визуализация, вычисление площади, сравнение участков поверхности.
Linguistic tools Лекция 5. ПОИСКОВЫЕ СИСТЕМЫ: предыстория Библейские индексы и конкордансы 1247 – Hugo de St. Caro – было задействовано 500 монахов для.
Работа выполнена учителем физики Паниной О. В. Руководитель:
IV семестр «Функция и эволюция» БЛОК 1 «Эволюция» – 4 занятия Молекулярная филогенетика. Задачи и подходы. Лекция- семинар, (АБР) Реконструкция.
Поиск оптимального набора параметров оптимизаций компилятора Брусенцов Леонид Евгеньевич студент 4 курса ФИТ НГУ Руководители:Илья.
Домены Определения Методы разделения структуры на домены Классификации.
Расторгуев А.C., 545 группа Научный руководитель: Пименов А.А. Рецензент: ст. преп. Смирнова Е.А.
Системы отбора. Условные обозначения (1) (2) (3) (4) (5) (6) (7) Математическое моделирование процессов отбора2.
R1R2R3R4R5R6R7R1R2R3R4R5R6R7. Аксиома R 1. В пространстве существуют плоскости. В каждой плоскости пространства выполняются все аксиомы планиметрии.
с использованием многокритериальных оценок
Некомпенсаторное агрегирование и рейтингование студентов Авторы: Гончаров Алексей Александрович, Чистяков Вячеслав Васильевич. НФ ГУ ВШЭ 2010 год.
Подготовил: Евгений Дзень
Bank ownership and lending behavior Alejandro Micco, Ugo Panizza Politicians and banks: Political influences on government-owned banks in emerging markets.
Определение необходимого уровня запасов на складе.
Учитель математики Кулакова Т.М. МОУ ООШ №15 г.о Новокуйбышевск Самарской области Сентябрь 2011г.
Сохранение суммы фазовых координат. Важный частный случай представляют системы, в которых в течение всего процесса сохраняется постоянной сумма значений.
Что за хулиган толкает пассажиров автобуса то вперед, то назад? Этот хулиган, вернее, хулиганка -
Типология характеров по Фрейду
Функции II. Классификация. Зачем? А.Б.Рахманинова (6 марта 2006 г.)
Российский государственный педагогический университет им. А.И. Герцена ИНСТИТУТ ДОВУЗОВСКОЙ ПОДГОТОВКИ Дистанционное обучение «Русский язык. Подготовка.
Создание сервиса синхронизации разнородных баз данных Допущена к защите зав. кафедрой: д.ф.м.н., профессор Терехов А.Н. Научный руководитель: доцент Графеева.
Обзор последних достижений биометрических методов аутентификации РусКрипто 2005.
ООП Классы – 2. Ссылки Ссылка – еще одно имя объекта. Используйте ссылки вместо указателя. Это более безопасно. Complex c(10,10); Complex c2& = c; c2+=10;
Функции IV. Биоинформатические ресурсы для работы с мембранными белками А.Б.Рахманинова (3 и 4 апреля 2007г.)
Блок 3. Семейства белков I. Множественное выравнивание Первый курс, весна 2008, А.Б.Рахманинова.
Анализ аминокислотной последовательности: паттерны, домены, семейства … или что, где и как искать?
Ответы на вопросы 7 июля « Подготовка паспортов безопасности» тел: (495) Экологический Синтезирующий.
BLAST Что такое выравнивание Выравнивание 2х последовательностей
Введение в параллельные вычисления. Технология программирования MPI (день третий) Антонов Александр Сергеевич, к.ф.-м.н., н.с. лаборатории Параллельных.
МЕХАНИКА Кинематика……………………………………….. Основы динамики……………………………… Взаимодействие тел……………………………
Основы цифровой обработки речевых сигналов. Общая схема процесса речеобразования x[n] – дискретные отсчеты сигнала возбуждения y[n] – дискретные отсчеты.
Growing Neural Gas Method Нейросетевой метод построения неструктурированных адаптивных сеток.
Сравнение различных методов хранения XML в реляционных базах данных и в разных системах. Нгуен Тхань Хуен- 545 группа Руководитель : Б.А. Новиков Рецензент:
Структура белка Как предсказать вторичную структуру белка? Как найти и анализировать пространственную структуру, если она известна? Что можно делать, если.
А.Б. Рахманинова (13 апреля 2010 г.) Факультет Биоинженерии и Биоинформатики, 2 курс, весенний семестр Функции Мембранные белки. Транспортные белки.
 Нужно много различных протоколов связи  Каждый из них может реализовываться на разных платформах Современные сети Много устройств, компьютеров и сетей.
"The European Molecular Biology Open Software Suite"
Формантный синтезатор речи. Часть 1. Полюсы и нули – иное понимание Полюс – это пара чисел (B, F), B – ширина форманты, F – частота форманты Нуль – это.
Лобанов Алексей Иванович Основы вычислительной математики Лекция 1 8 сентября 2009 года.
Множественные выравнивания как метод исследования Материалы к занятиям IV блока курса биоинформатики, 2006 А.Б.Рахманинова.
Множественные выравнивания Зачем все это нужно? Глобальные множественные выравнивания – основы алгоритма, программы Где искать на Web? Можно ли редактировать.
Д.А. Равчеев (14 апреля 2009 г.) Факультет Биоинженерии и Биоинформатики, 2 курс, весенний семестр Функции Трансмембранные белки.
Тема: Сравнительный анализ сложности факторизации алгоритмов целых чисел Выполнила: Дубовицкая Н.В., гр 957 Научный руководитель: Ишмухаметов Ш.Т.
Анализ использования нескольких функций приспособленности для построения автоматов с помощью генетических алгоритмов на примере задачи «Умный муравей 3»
Swiss-Prot – одна из первых баз данных белковых последовательностей, “gold standard” белковой аннотации. Аннотация выполнена вручную группой профессиональных.
Сравнительный анализ пространственных структур белков 1. Оценка качества пространственной структуры (по G.Kleywegt, 2000)
Семинар “Machine Learning” рук. проф.: Е.Л. Столов, В.Д. Соловьев Учебник Бишопа us/um/people/cmbishop/prml/
Сервис описания дискретных динамических систем на основе рекуррентных алгоритмов стохастической аппроксимации и подобных им Александр Вахитов научный руководитель.
Маршрут, цепь, цикл Маршрутом называют последовательность вершин и ребер, в которой любые два соседних элемента инцидентны (т.е. соединены). Например:
Методы анализа данных. Статистическая проверка гипотез.
Деревья (trees) «…великое Дерево Жизни заполняет земную кору своими мертвыми и сломанными ветвями и покрывает поверхность вечно ветвящимися и прекрасными.
Учитель биологии ГОУ ЦО №1470 Селезнёва И.Г.. « Рост, размножение, подвижность, возбудимость, способность реагировать на изменения внешней среды – все.
Cравнение биологических последовательностей А.Б.Рахманинова, 2008.
ВВЕДЕНИЕ В ВЫЧИСЛИТЕЛЬНУЮ МАТЕМАТИКУ Лекция 5 6 октября 2009 ВЫЧИСЛИТЕЛЬНАЯ ЛИНЕЙНАЯ АЛГЕБРА.
Анализ аминокислотной последовательности: паттерны, домены, семейства … или что, где и как искать?
Множественное выравнивание С.А.Спирин, весна
Учитель Антонова О.Я. Учитель Антонова О.Я. Зерноградская поликлиника.
Классификация, кластеризация и поиск изображений на основе низкоуровневых характеристик Наталья Васильева Руководитель: Новиков Б. А.
XML Схемы XML документов. XML Schema созданая Microsoft позволяет избавиться от DTD блоков. Основа – использование пространств имен и очень точная типизация.
Обработка исключений в C# Единая техника обнаружения ошибок времени выполнения и передачи информации о них.
«Отгадай символы Рождества»
СУММА УГЛОВ ТРЕУГОЛЬНИКА Токарева В.Н.,учитель математики МБОУ «СОШ №20 с УИОП»
Применение графического метода для решения различных математических задач Учитель гимназии №3 Шахова Т. А.
Gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta.
‘For and Against’ Essays Useful tips. Plan Introduction - Paragraph 1 (state topic – summary of the topic without giving your opinion) Main Body – Paragraph.
Jokes Jokes Jokes Teacher: Where's your text book? Student: At home. Teacher: What's it doing there? Student: Having a.
Gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta.
Presentation transcript:

3. Сравнение пространственных структур белков

Выравнивание последовательностей гомеодоменов Пример 1: гомеодомены

Совмещение полипептидных цепей гомеодоменов

Какая программа выравнивания не выдала бы такой результат! В структурном выравнивании три остатка сдвинуты к левому краю разрыва

Выравнивание мотивов A, B, C РНК- зависимых РНК-полимераз вирусов Мотив A Консервативные остатки: 2 из 39 (5%!) Пример 2: РНК-зависимые РНК-полимеразы вирусов

Мотив B Функционально консервативные остатки: 4 из 37 (10%)

Мотив С Консервативные остатки: 3 из 22 (14%)

Совмещение в пространстве мотивов A, B, C из полимераз 9 разных вирусов Мотив A Мотив C Мотив B Здесь расположен активный центр полимеразы

Геометрическое ядро этого семейства полимераз состоит из 58 C  атомов в каждой из 9-и структур Критерий сходства – расстояния между любыми соответственными C  отличаются не более чем на 2 ангстрема

Геометрическое ядро семейства структур (Gerstein, 1995; I.Gelfand&Kister, 1998) Совокупность участков полипептидной цепи родственных белков (или комплексов макромолекул), с высокой точностью одинаково расположенных во всех представителях семейства структур Англ.: geometrical core, structure core

Сходство всех этих полимераз продолжается на большую часть глобулы, хотя и без совпадения остовов цепей в пространстве Fingers Palm Thumb Template RNA Product RNA NTP “Дополнительные” фрагменты цепи некоторых полимераз не показаны

Метод сравнения формы белков, структуры которых удалось совместить RASMOL: Select *B and not within(5.0, *A) Save selected file_B # Select *A and not within(5.0, *B) Save selected file_A Потом (1) Найти какие остатки цепи A (соотв. B) “дополнительные” (2) Охарактеризовать объемы дополнительных частей (например, в числе атомов)

В родстве со всем, что есть, уверясь И знаясь с будущим в быту, Нельзя не впасть к концу, как в ересь, В неслыханную простоту. Но мы пощажены не будем, Когда ее не утаим. Она всего нужнее людям, Но сложное понятней им. Б. Пастернак

Фрагмент выравнивания (по Xu et al., 2003) Функционально консервативные остатки: 13 из 150 (8%)

Продолжение Функционально консервативные остатки: 5 из 140 (4%)

Выводы Консервативные по последовательности участки полипептидной цепи сохраняют взаимное расположение в структурах белков Даже слабая, но правильная, консервативность свидетельствует в пользу сходства структур

Пространственная структура остова полипептидной цепи консервативнее последовательности! Почему в эволюции с точностью в 1-2 ангстрема поддерживается пространственное расположение остова полипептидной цепи при том, что аминокислотные остатки в тех же самых участках заменяются???

Токарный станок – это фермент, катализирующий реакцию превращения заготовки в деталь, имеющую цилиндрическую, коническую или любую форму тела вращения 3 м 3 см

Станина остается неизменной!

Рост числа расшифрованных структур белков (PDB)

Сравнение 3D структур необходимо для - моделирования, - предсказания функции, - изучения эволюции белков Главный ( и почти единственный широко распространенный ) метод сравнения структур – выравнивание полипептидных цепей в пространстве

Постановки задачи пространственного выравнивания Алгоритмы

Пространственное выравнивание структур белков по C α атомам: белки рассматриваются как “твердое тело”

1. Парное выравнивание: Даны две структуры. Найти их наилучшее пространственной выравнивание 2. Поиск в БД: Дана структура. В банке данных (например, PDB) найти все похожие. 3. Множественное выравнивание: Даны n структур родственных (или не очень) белков (доменов). Найти наилучшее пространственное выравнивание всех вместе

В задачах пространственного выравнивания есть варианты постановки A.При заданном (частичном!) выравнивании последовательностей. B.Без заданного выравнивания последовательностей

Задача 1A (парное выравнивание) Дано: –n точек в пространстве A 1, …, A n - центры C  атомов из выровненных остатков 1-й структуры –n точек в пространстве B 1, …, B n - центры C  атомов из выровненных остатков 2-й структуры A1A1 A2A2 A3A3 A4A4 A5A5 B1B1 B3B3 B1B1 B4B4 B5B5 B2B2 Структура A Структура B

Найти: Наилучшее относительно некоторого параметра  (A,B) совмещение Минимальное значение  min (A,B) A1A1 A2A2 A3A3 A4A4 A5A5 B1B1 B3B3 B4B4 B5B5 B2B2

Параметр сходства  (A,B) Среднее квадратичное расстояние: – Обе структуры помещены в одно пространство (можно воображать, что в один PDB файл) –   (A,B)=sqrt(Σ i расст.(A i,B i ) 2 ) Английская аббревиатура: rmsd – root mean square deviation –Чем меньше   (A,B), тем лучше структуры совмещены в пространстве

Другие меры сходства  Максимальное расстояние: –Обе структуры поме щены в одно пространство  ∞ (A,B)=max(расст.(A i,B i ))

Пара точек Расстоян ие между ними A 1,B A 2,B A 3,B A 4,B A 5,B A 6,B A 7,B A 8,B A 9,B A 10,B  ∞∞ 1110 Сравнение двух мер сходства

Выравнивание без совмещения: сравнение матриц расстояний между C α атомами Матрица расстояний между C α атомами в структуре A A Полипептидная цепь

Если две матрицы расстояний совпадают, то соответствующие им конфигурации атомов могут быть совмещены движением пространства ( сохраняющим или не сохраняющим ориентацию) Если элементы двух матриц различаются не на много, то конфигурации хорошо совмещаются в пространстве

Задача 1A для rmsd эффективно решается итеративными процедурами (функция “Fit by selection” в SwissPDBviewer'е) Sippl&Stegbuchner, 1991: (1) Переместить “центры тяжести” и A, и B в начало координат (2) Подобрать поворот B вокруг оси X, минимизирующий   (A,B) (угол вращения φ n вычисляется - выводится формула) (3) -- '' -- '' -- '' -- '' -- '' -- '' -- '' -- '' -- '' -- Y -- '' -- ψ n (4) -- '' -- '' -- '' -- '' -- '' -- '' -- '' -- '' -- '' -- Z -- '' -- ω n (5) Если φ n, ψ n, ω n < заданного порога δ, то остановка; иначе повторить (2) – (4)

1B. Пространственное выравнивание 2х структур без заданного выравнивания последовательностей Для данного порога d найти подмножество A={A 1, …, A n } C α атомов первой структуры и подмножество B={B 1, …, B n } C α атомов такие, что  (A,B)< d (  какая-либо из мер сходства) (2) A 1, …, A n соблюдают порядок вдоль полипептидной цепи, возможно, с разрывами любой длины (3) B 1, …, B n соблюдают порядок вдоль полипептидной цепи, возможно, с разрывами любой длины (4) число n выбранных атомов максимально возможное

Не существует эффективных алгоритмов, гарантирующих точное решение задачи. Задача вычислительно сложная! Все предложенные эффективные алгоритмы основаны на эвристиках. В “простых” случаях дают правильный ответ, в более сложных – могут ошибаться.

Несколько работоспособных сервисов DALI server (алгоритм DALI, Holm, Sander, 1993) MultiProt –( алгоритм MUSTA, Leibowits, Nussinov, Wolfson, 2001) VAST (NCBI) MSD CE (Shindyanov&Bourne, 1998) SARF (Spatial ARangement of backbone Fragments, Alexandrov, 1996)

Алгоритм DALI (L.Holm&C.Sander) 1.Мера сходства двух сопоставленных наборов атомов A=(A 1, …, A n ) и B=(B 1, …, B n ): 1)Обозначения: d A i,j - расстояние между атомами A i и A j из структуры A d B i,j - расстояние между атомами B i и B j из структуры B

2)Модуль разности | d A i,j - d B i,j | определяет вес сходства для данной пары пар атомов:  i,j = F(| d A i,j - d B i,j |) где F(x) – функция, определенная ниже 3)Чего хотим от  i,j : 1.Чем больше  i,j, тем более похожи структуры (по аналогии с весом – score – выравнивания последовательностей) 2.Разность расстояний измеряется в процентах, а не в абсолютных величинах 3.Значимость различий быстро убывает с расстоянием

  (i,j) = | d A ij – d B ij |  E d * ij w(d * ij )  E - 4) Реализация – elastic similarity score:  E =0.2 ( по умолчанию) w(r) = exp(-r 2 /  2 ) где  d * ij = среднее арифметическое d A ij и d B ij

2.Алгоритм. Шаг 1 – отбор сходных пар гексапептидов – начальных данных для пространственного выравнивания Пара гексапептидов (A’,A’’) в структуре A и сходная пара гексапептидов (B’,B’’) в структуре B B’’ A’’ i’ i+1 i+2 i+3i+4 i+5 j j+2 j+1 j’+5 j+4 j+3 i i’+1 i’+4 i’+5 j’ j’+2 j’+1 j+5 j+4 j’+3 i’+2 i’+3 A’ B’ Структура AСтруктура B

XXXXXX XXXXXX 30+++XXXXXX 40++XXXXXX 50+XXXXXX 60XXXXXX Матрица для пары гексапептидов извлекается из полной матрицы расстояний

1)Перебор гексапептидов в каждой структуре: 1.Пары гексапептидов, принадлежащих одной и той же паре элементов вторичной структуры, объединяются. Из них выбирается одна пара – та, для которой среднее расстояние между гексапептидами минимально. 2.Пары со средним расстоянием между гексапептидами более 25 ангстрем не рассматриваются 3.Пары упорядочиваются по среднему расстоянию между гексапептидами

2)Отбор пар сходных пар гексапептидов При сравнении пар гексапептидов из разных структур используются методы быстрой фильтрации непохожих пар: – по различию средних расстояний между гексапептидами; – по различию сумм матричных элементов по строкам (столбцам )

3) Завершение списка пар сходных пар 1.Порядок рассмотрения пар гексапептидов – по среднему расстоянию между ними, от пар с меньшим расстоянием к парам с большим. 2.Список сходных пар гексапептидов закрывается если либо (1) среднее расстояние между парами гексапептидов превышает 25 ангстрем либо (2) список достигает пар сходных гексапептидов Не более пар пар с лучшим весом S отправляются на следующий шаг – построение выравнивания

3.Отбор зародышей выравнивания – троек гексапептидов 1)Если –(A’, A’’) сходна с (B’,B’’) –(A’’, A’’’) сходна с (B’’,B’’’) –(A’’’, A’) сходна с (B’’’,B’) и гексапептиды A’, A’’, A’’’ (соотв., B’, B’’, B’’’) не пересекаются, то вычисляется сходство S наборов (A’,A’’, A’’’) с (B’, B’’, B’’’) 2)При достаточном сходстве эти наборы считаются зародышем пространственного выравнивания 3)Список зародышей ограничен числом 100

4.Каждый зародыш дает начало траектории наращивания выравнивания (A i, B i ), i=1,2,… 1)Обозначим зародыш (A’, A’’, A’’’; B’, B’’, B’’’) через (A 0, B 0 ) 2)(A i+1, B i+1 ) строится из (A i, B i ) добавлением одной из пар гексапептидов (ПГ), пересекающейся с (A i+1, B i+1 ) –ПГ выбирается случайно, с вероятностью p, зависящей от того, насколько сходство S’ нового выравнивания больше сходства S выравнивания (A i, B i ). Есть ненулевая вероятность выбрать худшее сходство! 3)На 1м и каждом 5м шагу происходит ревизия выравнивания (A i, B i ) – удаляются тетрапептиды, дающие отрицательный вклад в сходство 4)Траектория останавливается после того, как сходство перестает растит за 20 последних шагов

5.Фильтр траекторий Все траектории продолжаются параллельно. Траектория отбрасывается, если Сходство выравнивания существенно отстает от сходства для лидирующей траектории Выравнивание пересекается более, чем на 80% с выравниванием с лучшим сходство на другой траектории

6.Оптимизация лучшей траектории после завершения всех траекторий 1)10 раз удаляются из выравнивания случайно выбранные 30% тетрапептидов 2)Получившиеся 10 выравниваний наращиваются по тому же алгоритму 3)Выравнивание с лучшим сходством оставляется

7.Результат 1)Лучшее структурное выравнивание, число структурно сопоставленных остатков, Z-score 2)Альтернативные структурные выравнивания Для каждого выравнивания можно -совместить полипептидные цепи при данном выравнивании -визуально убедиться в его правильности - рассчитать rmsd по сопоставленным C 