BLAST Что такое выравнивание Выравнивание 2х последовательностей

Slides:



Advertisements
Similar presentations
Мультиплексирование ввода/вывода Программирование с использованием POSIX thread library.
Advertisements

Филогенетические деревья Что это такое Общий план действий Программы, которые строят деревья The time will come, I believe, though I shall not live to.
Компьютерный анализ белковой последовательности Анализируют только аминокислотную последовательность белка, пренебрегают взаимодействием между боковыми.
Философская этика Дилемма заключенного Рассмотрим следующий сценарий: Двух заключенных допрашивали по отдельности; А признаетсяA не признается B признается.
Биоинформатика Исследование информационных процессов в биологических системах (клетках, органах, организме, популяции). Изучение и внедрение в компьютерную.
Linguistic tools Лекция 5. ПОИСКОВЫЕ СИСТЕМЫ: предыстория Библейские индексы и конкордансы 1247 – Hugo de St. Caro – было задействовано 500 монахов для.
IV семестр «Функция и эволюция» БЛОК 1 «Эволюция» – 4 занятия Молекулярная филогенетика. Задачи и подходы. Лекция- семинар, (АБР) Реконструкция.
Поиск оптимального набора параметров оптимизаций компилятора Брусенцов Леонид Евгеньевич студент 4 курса ФИТ НГУ Руководители:Илья.
Утилизация нефтяного попутного газа: обоснование выбора регулирующего решения Гаврилов В.В. Минэкономразвития России.
Расторгуев А.C., 545 группа Научный руководитель: Пименов А.А. Рецензент: ст. преп. Смирнова Е.А.
Системы отбора. Условные обозначения (1) (2) (3) (4) (5) (6) (7) Математическое моделирование процессов отбора2.
R1R2R3R4R5R6R7R1R2R3R4R5R6R7. Аксиома R 1. В пространстве существуют плоскости. В каждой плоскости пространства выполняются все аксиомы планиметрии.
Можно выделить два подхода, на основе которых производится выбор посредника: 1.Аналитический, предполагающий осуществление выбора с использованием формул,
Некомпенсаторное агрегирование и рейтингование студентов Авторы: Гончаров Алексей Александрович, Чистяков Вячеслав Васильевич. НФ ГУ ВШЭ 2010 год.
Всевоволод Головизнин, MVC – паттерн проектирование, в котором бизнес - логика, управляющая логика и интерфейс разделены на три отдельных компонента.
Bank ownership and lending behavior Alejandro Micco, Ugo Panizza Politicians and banks: Political influences on government-owned banks in emerging markets.
Учитель математики Кулакова Т.М. МОУ ООШ №15 г.о Новокуйбышевск Самарской области Сентябрь 2011г.
Преподаватель: Арутюнова Е. В. (ст.преп.) Выполнила: студентка 1 курс ФЖ Манаенкова Елена Москва, 2010.
Что за хулиган толкает пассажиров автобуса то вперед, то назад? Этот хулиган, вернее, хулиганка -
Функции II. Классификация. Зачем? А.Б.Рахманинова (6 марта 2006 г.)
Российский государственный педагогический университет им. А.И. Герцена ИНСТИТУТ ДОВУЗОВСКОЙ ПОДГОТОВКИ Дистанционное обучение «Русский язык. Подготовка.
Обзор последних достижений биометрических методов аутентификации РусКрипто 2005.
ООП Классы – 2. Ссылки Ссылка – еще одно имя объекта. Используйте ссылки вместо указателя. Это более безопасно. Complex c(10,10); Complex c2& = c; c2+=10;
Функции IV. Биоинформатические ресурсы для работы с мембранными белками А.Б.Рахманинова (3 и 4 апреля 2007г.)
Блок 3. Семейства белков I. Множественное выравнивание Первый курс, весна 2008, А.Б.Рахманинова.
Анализ аминокислотной последовательности: паттерны, домены, семейства … или что, где и как искать?
1 Генерация контекстных ограничений для баз данных Выполнил: Жолудев В. Научный руководитель: Терехов А.Н. Рецензент: Иванов А.Н.
Работа выполнена в рамках проекта "Информационные технологии в управлении образованием" 1С: ХроноГраф 2.5 Последовательность создания в программе «1С:
Инструменты AdWords Анна Минчук cертифицированный консультант по Google AdWords.
Основы цифровой обработки речевых сигналов. Общая схема процесса речеобразования x[n] – дискретные отсчеты сигнала возбуждения y[n] – дискретные отсчеты.
Ген-ориентированные базы данных и геномные браузеры Что такое ген-ориентированные базы данных? Самые простые примеры таких БД Примеры геном-ориентированных.
Сравнение различных методов хранения XML в реляционных базах данных и в разных системах. Нгуен Тхань Хуен- 545 группа Руководитель : Б.А. Новиков Рецензент:
Структура белка Как предсказать вторичную структуру белка? Как найти и анализировать пространственную структуру, если она известна? Что можно делать, если.
1 Ребенок в Сети. Ребенок играет?
А.Б. Рахманинова (13 апреля 2010 г.) Факультет Биоинженерии и Биоинформатики, 2 курс, весенний семестр Функции Мембранные белки. Транспортные белки.
Сопоставление полигональных объектов на основе независимой фрагментации контуров Выполнил: Ю. М. Плотников Научный руководитель: канд. ф.-м. наук К. В.
Снегурочка «Здравствуйте, ребята! Пишет вам Снегурочка. Мне бы хотелось рассказать, как вы можете стать волшебни- ками. Это совсем нетрудно, просто нужно.
"The European Molecular Biology Open Software Suite"
Формантный синтезатор речи. Часть 1. Полюсы и нули – иное понимание Полюс – это пара чисел (B, F), B – ширина форманты, F – частота форманты Нуль – это.
Множественные выравнивания как метод исследования Материалы к занятиям IV блока курса биоинформатики, 2006 А.Б.Рахманинова.
Множественные выравнивания Зачем все это нужно? Глобальные множественные выравнивания – основы алгоритма, программы Где искать на Web? Можно ли редактировать.
Д.А. Равчеев (14 апреля 2009 г.) Факультет Биоинженерии и Биоинформатики, 2 курс, весенний семестр Функции Трансмембранные белки.
Автор: Новитская О.В.. Об авторе: Н Новитская Ольга Владимировна Студентка Кемеровского Государственного Университета физического факультета 4 курса группы.
Что можно делать с одиночной последовательностью ДНК? Как исключить векторные фланки? Рестрикционная карта Вашей последовательности Дизайн праймеров Анализ.
Деревья и их представление в STL Презентацию подготовила Чиркова Ольга, 2 подгруппа, группа 271ПИ.
3. Сравнение пространственных структур белков. Выравнивание последовательностей гомеодоменов Пример 1: гомеодомены.
Алгоритмы биоинформатики ФББ 2004 г., осенний семестр, 3-й курс. Миронов Андрей Александрович.
Heineken Russia Мотивации в действии. Heineken Russia Знание – сила! Каждый маркетолог желает знать, что же движет потребителем при выборе.
Кураева Екатерина Анатольевна, заместитель директора по УВР, учитель математики сш № 29.
Swiss-Prot – одна из первых баз данных белковых последовательностей, “gold standard” белковой аннотации. Аннотация выполнена вручную группой профессиональных.
Методы анализа данных. Статистическая проверка гипотез.
BioUML интегрированная расширяемая среда для моделирования биологических систем Biosoft.Ru Лабоработория Биоинформатики КТИ ВТ СО РАН
Формы в HTML. Элемент FORM Элемент уровня «блок» Управляющие элементы Просто текст Атрибуты: action – url обработчика method – post или get enctype –
Как найти последовательность, кодирующую Ваш белок? Как найти последовательность ДНК, кодирующую Ваш белок: – Ссылки из белковых баз данных – Прямой поиск.
Cравнение биологических последовательностей А.Б.Рахманинова, 2008.
ВВЕДЕНИЕ В ВЫЧИСЛИТЕЛЬНУЮ МАТЕМАТИКУ Лекция 5 6 октября 2009 ВЫЧИСЛИТЕЛЬНАЯ ЛИНЕЙНАЯ АЛГЕБРА.
Проверка эквивалентности срединной и линейной осей многоугольника Дипломная работа студента 545 группы Подколзина Максима Валериевича Санкт-Петербургский.
Анализ аминокислотной последовательности: паттерны, домены, семейства … или что, где и как искать?
Множественное выравнивание С.А.Спирин, весна
Учитель Антонова О.Я. Учитель Антонова О.Я. Зерноградская поликлиника.
«Отгадай символы Рождества»
1 R E F R I G E R A T I O N A N D A I R C O N D I T I O N I N G Как обновить программное обеспечение в AK-SC 255.
Writing Friendly Letters A Write On Activity. Friendly letters have five parts: 1. The Heading 2. The Salutation (greeting) 3. The Body (some paragraphs)
Gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta.
«Центр Разработки и Внедрения Террасофт Поволжье»
‘For and Against’ Essays Useful tips. Plan Introduction - Paragraph 1 (state topic – summary of the topic without giving your opinion) Main Body – Paragraph.
Jokes Jokes Jokes Teacher: Where's your text book? Student: At home. Teacher: What's it doing there? Student: Having a.
Gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta.
Общая характеристика семейства Семейство Крестоцветные включает около 4 тысяч видов. По-другому семейство Крестоцветные называют семейством Капустные.
Сортировка, поиск и фильтрация данных в базе данных и выборках
Presentation transcript:

BLAST Что такое выравнивание Выравнивание 2х последовательностей BLAST на NCBI: Что это такое Как выбрать правильную программу Как выбрать правильную базу данных Как запустить Как интерпретировать результаты

Почему нас интересует локальное сходство последовательностей? Мы верим, что: 1. функцию, структуру и многие другие свойства белка/ДНК определяет последовательность; родственные белки имеют похожие свойства молекулы, похожие по последовательности, похожи и по свойствам Т.о. свойства можно предсказать, анализируя изученные последовательности, похожие на данную

Признаки гомологичности белков Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка) Признаки гомологичности белков сходная 3D-структура в той или иной степени похожая аминокислотная последовательность аналогичная функция разные другие соображения…

Ортологи Паралоги Ксенологи ? Гомологи Ортологи Паралоги Ксенологи ? (W.M.Fitch, Syst.Zool.19,99(1970)

Ортологи — последовательности, возникшие из одного общего предшественника в процессе видообразования. Ортологи, как правило, имеют одну и ту же функцию Паралоги — последовательности, возникшие из одного общего предшественника в результате дупликации одного гена в одном организме. Паралоги, как правило, имеют разные функции.

Средство поиска сходства - выравнивание «Идеальное» выравнивание – запись последовательностей одна под другой так, чтобы гомологичные фрагменты оказались друг под другом. домовой скупидом водомерка лесовоз ---лесо---воз ледоход лед---оход---

Схожие 3D структуры Вставка в «синей» последовательности

Как выровнять 2 последовательности? Цель - максимальное количество совпадений Просто написать их друг под другом Двигать друг относительно друга Вставлять пробелы Что лучше? лесовоз ---лесо---воз ледоход лед---оход--- Гэп – пропуск в последовательности

Матрицы замен Матрица 20*20 на пересечении 2х aa их уровень сходства (?): Похожесть по свойствам (объем, гидрофильность, заряд и т.д.) Эволюционное родство – частота замен 1ой aa на другую в изученных белках 2 сорта последних: РАМ (Point Accepted Mutations) – на выравниваниях очень близких белков (РАМ20 = РАМ^20) BLOSUM (BLOck Scoring Matrix) – на блоках выравниваний далеких белков (без делеций) (BLOSUM62 – на белках со средним уровнем сходства 62% попарно)

Делеции/инсерции Общий штраф Значительно чаще 1 длинная делеция, чем много коротких => штраф за внесение делеции + штраф за удлинение делеции

Типы выравнивания Локальное – поиск фрагментов наиболее похожих друг на друга домовой домовой домовой скупидом водомерка водомерка Глобальное – сравнение последовательностей целиком: каждый нуклеотид (аминокислота) находит себе пару лесовоз ---лесо---воз ледоход лед---оход--- ?

Критерии качества выравнивания Количество идентичных (похожих) аминокислот/нуклеотидов Для белков – более 25% id при длине > 100 aa Для ДНК – более 70% id при длине > 100 nt Длина выравнивания Вероятность наблюдать такое сходство случайным образом Зависит от базы данных Score – общая мера сходства: Зависит от программы

BLAST – Basic Local Alignment and Search Tool Локальное выравнивание Главная задача – поиск похожих последовательностей в базах данных (=> главное достоинство – скорость) Очень неточно восстанавливает сходство Основная программа поиска по БД Для специализированных БД часто предлагается на сайте БД Для поиска среди известных последовательностей есть специальные сервера

Родной BLAST – NCBI (http://www.ncbi.nlm.nih.gov/blast/Blast.cgi)

Какую программу BLAST выбрать? Программа Query Тип БД Сравнивает Blastn ДНК Blastp белок белки Blastx Tblastn Tblastx

Дополнительные программы ДНК: megaBLAST – другой алгоритм для сравнения ДНК. Оптимизирован для длинных похожих последовательностей. Оптимален для поиска хитов в родном геноме или очень близких видах Discontiguous megaBLAST – аналогично, параметры подобраны для более далеких видов Белок: PSI-BLAST (Position-Specific Iterated -BLAST) поиск удаленных белковых гомологов с использованием PSSM (position-specific scoring matrix) PHI-BLAST (Pattern-Hit Initiated -BLAST) ищет гомологичные белки, удовлетворяющие заданному паттерну

Какую программу выбрать? BLAST

Стандартный input

Промежуточная страница - СD

Output - I

Output - II

Output - III

Output IV

E-value, bit score Как правило, BLAST недооценивает e-value! E-value (the expectation value) – оценка числа раз наблюдать хит такого же качества при таком размере базы данных (0 - e-6 – хорошо, > 0.001 - 0.01 – плохо) Как правило, BLAST недооценивает e-value! Bit Score – мера статистической значимости (вес – сумма стоимостей всех точечных замен) выравнивания, (меньше 50 – плохо)

Сообщение о параметрах В конце файла текстовая информация об использованный параметрах: Использованная матрица замен Штрафы за внесение и продление делеции Дата Использованная БД Размер БД Количество полученных хитов …

Как сохранить результаты BLAST? Распечатывать плохо – слишком много Сохранить как Web-страницу в браузере – сохраняются линки Можно сохранить в .pdf Графический дисплей можно сохранить как картинку, а остальное – как текст

Выбор параметров Меняйте параметры только, если по умолчанию не работает (параметры по умолчанию подобраны хорошо для большинства ситуаций) Для того, чтобы выбрать более подходящие параметры надо очень ТОЧНО сформулировать задачу

Какие параметры менять? Фильтрация Low-complexity region – другой aa-состав Фильтрация: если Ваш белок содержит большой регион низкой сложности – попробуйте использовать BLAST без соответствующей фильтрации Если Ваш белок содержит очень часто встречающиеся домены, их тоже можно отфильтровать – в ручную ДНК – геном-специфичные повторы!

Параметры выравнивания Матрица:BLOSUM для локального выравнивания обычно лучше, чем PAM Чем выше номер BLOSUM – тем строже выравнивание (BLOSUM80 вместо BLOSUM45 – более короткие выравнивания) РАМ – чем ниже, тем строже Штрафы за делеции: Чем больше штраф за внесение, тем короче выравнивания Меняете матрицу – надо менять и штраф Чем ниже номер BLOSUM (выше РАМ), тем меньше штраф за внесение делеции Штраф за удлинение ~10 раз ниже, чем за внесение Если сравниваете удаленных гомологов, то лучше всего довольно высокий штраф за внесение делеции и низкий за удлинение Близкие гомологи – штрафы ближе друг к другу

Параметры output-формата Количество хитов Выбор базы данных (организм) Выбор порога - Expect (если хитов мало, то можно смотреть на более подозрительные) Entrez query – ключевые слова (например, “protease AND human”)

PSI - BLAST Алгоритм: Несколько раундов поиска Первый раунд – просто blastp (BLOSUM62) Построение PSSM на основе полученных хитов (можете выбрать те, что надо) Следующий раунд на основе этой PSSM Методов итераций, пока множество хитов не перестанет меняться

PHI - BLAST Query – белок + паттерн, которому этот белок удовлетворяет Пример: >P28332|ADH6_HUMAN Alcohol dehydrogenase 6 - Homo sapiens (Human) MSTTGQVIRCKAAILWKPGAPFSIEEVEVAPPKAKEVRIKVVATGLCGTEMKVLGSKHLD LLYPTILGHEGAGIVESIGEGVSTVKPGDKVITLFLPQCGECTSCLNSEGNFCIQFKQSK TQLMSDGTSRFTCKGKSIYHFGNTSTFCEYTVIKEISVAKIDAVAPLEKVCLISCGFSTG FGAAINTAKVTPGSTCAVFGLGGVGLSVVMGCKAAGAARIIGVDVNKEKFKKAQELGATE CLNPQDLKKPIQEVLFDMTDAGIDFCFEAIGNLDVLAAALASCNESYGVCVVVGVLPASV QLKISGQLFFSGRSLKGSVFGGWKSRQHIPKLVADYMAEKLNLDPLITHTLNLDKINEAV ELMKTGKW G - H - E - x - {EL} - G - {AP} - x(4) - [GA] - x(2) - [IVSAC]

Пример простого мотива Алкогольдегидрогеназа 6 (человек) 68 - 82: GHEgAGIvesiGegV Алкогольдегидрогеназа класса 3 (рис) 70 - 84: GHEaAGIvesvGegV Алкогольдегидрогеназа, специфичная к пропанолу (кишечная палочка) 57 - 71: GHEgIGVvaevGpgV Распознающее правило типа «паттерн»: G - H - E - x - {EL} - G - {AP} - x(4) - [GA] - x(2) - [IVSAC] Паттерн – регулярное выражение UNIX’a: Например, выражение [AC]-x-V-x(4)-{ED} читается как Ala или Cys- х-Val- х- х- х - х- (любой остаток, но не Glu и не Asp)

Align2seq Выравнивает 2 последовательности точно, как BLAST по базе данных (быстро, но не аккуратно)

Другие программы построения выравниваний Поиск по БД: FASTA (www.ebi.ac.uk/fasta33/) Ssearch (алгоритм Smith-Waterman) (www.ch.embnet.org) BLAT (genome.ucsc.edu) Попарное выравнивание: Lalign (www.ch.embnet.org) Любая программа из следующей лекции

Более сложное распознающее правило – PSSM. Какая а. к A -18 -10 -1 -8 8 -3 3 -10 -2 -8 C -22 -33 -18 -18 -22 -26 22 -24 -19 -7 D -35 0 -32 -33 -7 6 -17 -34 -31 0 E -27 15 -25 -26 -9 23 -9 -24 -23 -1 F 60 -30 12 14 -26 -29 -15 4 12 -29 G -30 -20 -28 -32 28 -14 -23 -33 -27 -5 H -13 -12 -25 -25 -16 14 -22 -22 -23 -10 I 3 -27 21 25 -29 -23 -8 33 19 -23 K -26 25 -25 -27 -6 4 -15 -27 -26 0 L 14 -28 19 27 -27 -20 -9 33 26 -21 M 3 -15 10 14 -17 -10 -9 25 12 -11 N -22 -6 -24 -27 1 8 -15 -24 -24 -4 P -30 24 -26 -28 -14 -10 -22 -24 -26 -18 Q -32 5 -25 -26 -9 24 -16 -17 -23 7 R -18 9 -22 -22 -10 0 -18 -23 -22 -4 S -22 -8 -16 -21 11 2 -1 -24 -19 -4 T -10 -10 -6 -7 -5 -8 2 -10 -7 -11 V 0 -25 22 25 -19 -26 6 19 16 -16 W 9 -25 -18 -19 -25 -27 -34 -20 -17 -28 Y 34 -18 -1 1 -23 -12 -19 0 0 -18