Распознавание регуляторных сигналов Факультет биоинженерии и биоинформатики МГУ, второй курс. Декабрь 2006 М. Гельфанд (лекции) Д. Равчеев (задания) А.

Slides:



Advertisements
Similar presentations
2. ФУНКЦИИ транскрипция трансляция сплайсинг репликация.
Advertisements

ЗАРЯДКА НА АНГЛИЙСКОМ ЯЗЫКЕ.  Зарядка на уроке английского языка может стать самым любимым и веселым занятием для детей, при том, что она проходит исключительно.
Филогенетические деревья Что это такое Общий план действий Программы, которые строят деревья The time will come, I believe, though I shall not live to.
Биоинформатика.
Биоинформатика Исследование информационных процессов в биологических системах (клетках, органах, организме, популяции). Изучение и внедрение в компьютерную.
Деревья (trees) «…великое Дерево Жизни заполняет земную кору своими мертвыми и сломанными ветвями и покрывает поверхность вечно ветвящимися и прекрасными.
Linguistic tools Лекция 5. ПОИСКОВЫЕ СИСТЕМЫ: предыстория Библейские индексы и конкордансы 1247 – Hugo de St. Caro – было задействовано 500 монахов для.
Схема распределения грантов городам-участникам программы Тасис (TCAS) Экологические гранты для муниципалитетов.
Генетические алгоритмы Егоров Кирилл, гр Чураков Михаил, гр
Расторгуев А.C., 545 группа Научный руководитель: Пименов А.А. Рецензент: ст. преп. Смирнова Е.А.
R1R2R3R4R5R6R7R1R2R3R4R5R6R7. Аксиома R 1. В пространстве существуют плоскости. В каждой плоскости пространства выполняются все аксиомы планиметрии.
Рекламные технологии будущего уже здесь Как доказать соответствие Dentsu Way российскому рынку. Dentsu Group Russia Москва, Декабрь
Социальный инжиниринг и социальные сети Актуальные угрозы для пользователей социальных сетей.
Некомпенсаторное агрегирование и рейтингование студентов Авторы: Гончаров Алексей Александрович, Чистяков Вячеслав Васильевич. НФ ГУ ВШЭ 2010 год.
Всевоволод Головизнин, MVC – паттерн проектирование, в котором бизнес - логика, управляющая логика и интерфейс разделены на три отдельных компонента.
Bank ownership and lending behavior Alejandro Micco, Ugo Panizza Politicians and banks: Political influences on government-owned banks in emerging markets.
Учитель математики Кулакова Т.М. МОУ ООШ №15 г.о Новокуйбышевск Самарской области Сентябрь 2011г.
Сохранение суммы фазовых координат. Важный частный случай представляют системы, в которых в течение всего процесса сохраняется постоянной сумма значений.
Что за хулиган толкает пассажиров автобуса то вперед, то назад? Этот хулиган, вернее, хулиганка -
Российский государственный педагогический университет им. А.И. Герцена ИНСТИТУТ ДОВУЗОВСКОЙ ПОДГОТОВКИ Дистанционное обучение «Русский язык. Подготовка.
Создание сервиса синхронизации разнородных баз данных Допущена к защите зав. кафедрой: д.ф.м.н., профессор Терехов А.Н. Научный руководитель: доцент Графеева.
Обзор последних достижений биометрических методов аутентификации РусКрипто 2005.
ООП Классы – 2. Ссылки Ссылка – еще одно имя объекта. Используйте ссылки вместо указателя. Это более безопасно. Complex c(10,10); Complex c2& = c; c2+=10;
Функции IV. Биоинформатические ресурсы для работы с мембранными белками А.Б.Рахманинова (3 и 4 апреля 2007г.)
Блок 3. Семейства белков I. Множественное выравнивание Первый курс, весна 2008, А.Б.Рахманинова.
Анализ аминокислотной последовательности: паттерны, домены, семейства … или что, где и как искать?
Контекстно- поведенческие технологии Михаил Козлов, директор по продуктам «Бегуна»
Erstmedia, , Москва, ул. Профсоюзная, 93А, офис (495) , Стратегия и тактика крупного бренда.
Генетика пола, сцепленное с полом наследование.. Мужские и женские особи отличаются наличием половых хромосом. У человека: Женский пол – гомогаметен,
1 Генерация контекстных ограничений для баз данных Выполнил: Жолудев В. Научный руководитель: Терехов А.Н. Рецензент: Иванов А.Н.
BLAST Что такое выравнивание Выравнивание 2х последовательностей
Михаил Налётов Активные продажи на сайте. Может ли ваш сайт работать еще эффективнее?
Genomics Irena Artamonova Second European School of Bioinformatics Nijmegen, January 22, 2005.
Основы цифровой обработки речевых сигналов. Общая схема процесса речеобразования x[n] – дискретные отсчеты сигнала возбуждения y[n] – дискретные отсчеты.
Growing Neural Gas Method Нейросетевой метод построения неструктурированных адаптивных сеток.
Сравнение различных методов хранения XML в реляционных базах данных и в разных системах. Нгуен Тхань Хуен- 545 группа Руководитель : Б.А. Новиков Рецензент:
Структура белка Как предсказать вторичную структуру белка? Как найти и анализировать пространственную структуру, если она известна? Что можно делать, если.
А.Б. Рахманинова (13 апреля 2010 г.) Факультет Биоинженерии и Биоинформатики, 2 курс, весенний семестр Функции Мембранные белки. Транспортные белки.
 Нужно много различных протоколов связи  Каждый из них может реализовываться на разных платформах Современные сети Много устройств, компьютеров и сетей.
Деревья курс «Алгоритмы и структуры данных» Отделение Программной инженерии.
"The European Molecular Biology Open Software Suite"
Мобильные ретроэлементы в геноме эукариот.. Ревертаза. РНК-зависимая ДНК- полимераза (ревертаза) способна катализировать синтез ДНК-копии (кДНК) на РНК-матрице.
Множественные выравнивания Зачем все это нужно? Глобальные множественные выравнивания – основы алгоритма, программы Где искать на Web? Можно ли редактировать.
Д.А. Равчеев (14 апреля 2009 г.) Факультет Биоинженерии и Биоинформатики, 2 курс, весенний семестр Функции Трансмембранные белки.
Что можно делать с одиночной последовательностью ДНК? Как исключить векторные фланки? Рестрикционная карта Вашей последовательности Дизайн праймеров Анализ.
Деревья и их представление в STL Презентацию подготовила Чиркова Ольга, 2 подгруппа, группа 271ПИ.
3. Сравнение пространственных структур белков. Выравнивание последовательностей гомеодоменов Пример 1: гомеодомены.
Нахождение ориджинов в последовательности нуклеотидов Выполнил: Ромашкин Амир, 445 гр. Руководитель: Профессор АФТУ, Порозов Юрий.
Маршрут, цепь, цикл Маршрутом называют последовательность вершин и ребер, в которой любые два соседних элемента инцидентны (т.е. соединены). Например:
Методы анализа данных. Статистическая проверка гипотез.
Разработка алгоритмов распознавания текста
Деревья (trees) «…великое Дерево Жизни заполняет земную кору своими мертвыми и сломанными ветвями и покрывает поверхность вечно ветвящимися и прекрасными.
Как найти последовательность, кодирующую Ваш белок? Как найти последовательность ДНК, кодирующую Ваш белок: – Ссылки из белковых баз данных – Прямой поиск.
ВВЕДЕНИЕ В ВЫЧИСЛИТЕЛЬНУЮ МАТЕМАТИКУ Лекция 5 6 октября 2009 ВЫЧИСЛИТЕЛЬНАЯ ЛИНЕЙНАЯ АЛГЕБРА.
Множественное выравнивание С.А.Спирин, весна
Обработка исключений в C# Единая техника обнаружения ошибок времени выполнения и передачи информации о них.
«Отгадай символы Рождества»
Recognition of regulatory signals Mikhail S. Gelfand IntegratedGenomics-Moscow NATO ASI School, October 2001.
The Genetic Code Math-CS Camp, , Singapore
СУММА УГЛОВ ТРЕУГОЛЬНИКА Токарева В.Н.,учитель математики МБОУ «СОШ №20 с УИОП»
Gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta.
Захватывающее предложение по организации игры «Мафия» для event-агентств наши клиенты: тел.: сайт: (495)
‘For and Against’ Essays Useful tips. Plan Introduction - Paragraph 1 (state topic – summary of the topic without giving your opinion) Main Body – Paragraph.
Внимание! Так как файлы с поддержкой макроса невозможно загрузить, необходимо через режим разработчика вставьте этот код (Файл-Параметры-Настройка Ленты-
Jokes Jokes Jokes Teacher: Where's your text book? Student: At home. Teacher: What's it doing there? Student: Having a.
Gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta.
* Любой табак кроме WTO Депозит берется в течение 20 мин, как подошли все гости* В депозит входят все позиции в меню* Депозит не возвращается*
10 интересных фактов о Японии и Японцах. В состав Японии входит островов. При этом четыре наиболее крупных из них - Кюсю, Хонсю, Хоккайдо и Сикоку,
Presentation transcript:

Распознавание регуляторных сигналов Факультет биоинженерии и биоинформатики МГУ, второй курс. Декабрь 2006 М. Гельфанд (лекции) Д. Равчеев (задания) А. Герасимова, Э. Пермина (занятия) В.Ю. Макеев (некоторые слайды)

Транскрипция и трансляция в прокариотах

Сплайсинг (эукариоты)

Инициация транскрипции

Регуляция транскрипции в прокариотах

Структура ДНК-связывающего домена (cI)

Структура ДНК-связывающего домена (Cro)

Белок-ДНКовые взаимодействия

Регуляция транскрипции у эукариот

Регуляторные модули (В.А.Макеев) Один и тот же ген может регулироваться несколькими регуляторными модулями, работающими в разных условиях Расстояние от регуляторного модуля до кодирующих областей может достигать пар оснований

Представление сигналов Консенсус Pattern («образец» - консенсус с вырoжденными позициями) Позиционная весовая матрица (или профиль) positional weight matrix, PWM, profile Логические правила РНКовые сигналы – вторичная структура

Консенсус codB CCCACGAAAACGATTGCTTTTT purE GCCACGCAACCGTTTTCCTTGC pyrD GTTCGGAAAACGTTTGCGTTTT purT CACACGCAAACGTTTTCGTTTA cvpA CCTACGCAAACGTTTTCTTTTT purC GATACGCAAACGTGTGCGTCTG purM GTCTCGCAAACGTTTGCTTTCC purH GTTGCGCAAACGTTTTCGTTAC purL TCTACGCAAACGGTTTCGTCGG consensus ACGCAAACGTTTTCGT

Образец codB CCCACGAAAACGATTGCTTTTT purE GCCACGCAACCGTTTTCCTTGC pyrD GTTCGGAAAACGTTTGCGTTTT purT CACACGCAAACGTTTTCGTTTA cvpA CCTACGCAAACGTTTTCTTTTT purC GATACGCAAACGTGTGCGTCTG purM GTCTCGCAAACGTTTGCTTTCC purH GTTGCGCAAACGTTTTCGTTAC purL TCTACGCAAACGGTTTCGTCGG consensus ACGCAAACGTTTTCGT pattern aCGmAAACGtTTkCkT

Матрица частот I =  j  b f(b,j)[log f(b,j) / p(b)] Информационное содержание

Logo

Позиционная весовая матрица (профиль)

Вероятностная мотивировка: лог-правдоподобие (с точностью до линейного преобразования) Ещё одна: z-score (при сообтветствующем основании логарифма) Термодинамическая мотивировка: свободная энергия (в предположении независимости соседних позиций) Псевдоотсчеты (pseudocounts)

Логические правила, деревья и т.п. – учет зависимостей

Составление выборки Начало: –GenBank –специализированные банки данных –литература (общоры) –литература (оригинальные статьи) Исправление ошибок Проверка литературных данных предсказанные сайты. Удаление дубликатов

Перевыравнивание Первоначальное выравнивание по биологическим признакам –промоторы: старт транскрипции –участки связывания рибосом: стартовый кодон –сайты сплайсинга: экзон-интронные границы Выделение сигнала в скользящем окне Перевыраванивание и т.д. пока не сойдётся

Начала генов Bacillus subtilis dnaN ACATTATCCGTTAGGAGGATAAAAATG gyrA GTGATACTTCAGGGAGGTTTTTTAATG serS TCAATAAAAAAAGGAGTGTTTCGCATG bofA CAAGCGAAGGAGATGAGAAGATTCATG csfB GCTAACTGTACGGAGGTGGAGAAGATG xpaC ATAGACACAGGAGTCGATTATCTCATG metS ACATTCTGATTAGGAGGTTTCAAGATG gcaD AAAAGGGATATTGGAGGCCAATAAATG spoVC TATGTGACTAAGGGAGGATTCGCCATG ftsH GCTTACTGTGGGAGGAGGTAAGGAATG pabB AAAGAAAATAGAGGAATGATACAAATG rplJ CAAGAATCTACAGGAGGTGTAACCATG tufA AAAGCTCTTAAGGAGGATTTTAGAATG rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG rplM AGATCATTTAGGAGGGGAAATTCAATG

dnaN ACATTATCCGTTAGGAGGATAAAAATG gyrA GTGATACTTCAGGGAGGTTTTTTAATG serS TCAATAAAAAAAGGAGTGTTTCGCATG bofA CAAGCGAAGGAGATGAGAAGATTCATG csfB GCTAACTGTACGGAGGTGGAGAAGATG xpaC ATAGACACAGGAGTCGATTATCTCATG metS ACATTCTGATTAGGAGGTTTCAAGATG gcaD AAAAGGGATATTGGAGGCCAATAAATG spoVC TATGTGACTAAGGGAGGATTCGCCATG ftsH GCTTACTGTGGGAGGAGGTAAGGAATG pabB AAAGAAAATAGAGGAATGATACAAATG rplJ CAAGAATCTACAGGAGGTGTAACCATG tufA AAAGCTCTTAAGGAGGATTTTAGAATG rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG rplM AGATCATTTAGGAGGGGAAATTCAATG cons. aaagtatataagggagggttaataATG num

dnaN ACATTATCCGTTAGGAGGATAAAAATG gyrA GTGATACTTCAGGGAGGTTTTTTAATG serS TCAATAAAAAAAGGAGTGTTTCGCATG bofA CAAGCGAAGGAGATGAGAAGATTCATG csfB GCTAACTGTACGGAGGTGGAGAAGATG xpaC ATAGACACAGGAGTCGATTATCTCATG metS ACATTCTGATTAGGAGGTTTCAAGATG gcaD AAAAGGGATATTGGAGGCCAATAAATG spoVC TATGTGACTAAGGGAGGATTCGCCATG ftsH GCTTACTGTGGGAGGAGGTAAGGAATG pabB AAAGAAAATAGAGGAATGATACAAATG rplJ CAAGAATCTACAGGAGGTGTAACCATG tufA AAAGCTCTTAAGGAGGATTTTAGAATG rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG rplM AGATCATTTAGGAGGGGAAATTCAATG cons. tacataaaggaggtttaaaaat num

Позиционное информационное содержание до и после перевыравнивания

позиционные частоты после перевыравнивания (паттерн aGGAGG)

Поиск сигнала с самого начала (ab initio) “дискретные” подходы: считать слова и образцы “непрерывные” подходы: оптимизация профиля

Как считать короткие слова Рассмотрим все слова длины k (k-меры) Для каждого k-мера вычислим количество последовательностей, которые его содержат –(не обязательно в точности) Выберем самый частый k-мер

Проблема: Полный перебор возможен только для относительно коротких слов Предположение: если длинное слово встречается часто, его подслова тоже будут часто встречаться Решение: выбрать набор частых коротких слов и склеить в длинное

Как считать длинные слова Рассмотрим некоторые k-меры Для каждого k-мера вычислим количество последовательностей, которые его содержат –(не обязательно в точности) Выберем самый частый k-мер

Проблема: «некоторые» k-меры - это какие? 1 я попытка: те, которые встречаются в выборке Но: сигнал (консенсусный k-мер) может и не встретиться.

2 я попытка: те, которые встречаются в выборке и похожие на них. Но: –опять же, сигнал может и не попасть в это множество; –а размер множества «похожих» слов растёт экспоненциально

Теоретико-графовый подход Каждый k-мер в каждой последовательности соответствует вершине. Два k-мера соединены ребром, если они похожи (например, отличаются не более, чем в h позиций, h<<k). Получается n-дольный граф (n – количество последовательностей). Сигнал соответствует клике (полному подграфу) – или по крайней мере плотному графу – с вершинами в каждой доле

Простой алгоритм Удалить все вершины, которые не могут быть продолжены до полных графов –то есть, не имеют ребер во все доли Из списка пар удалить все, которые … –то есть не образуют треугольники с третьими вершинами во всех долях И т.д.. (не будет в такой форме работать для поиска плотных подграфов)

Оптимизация. Expectation - Maximization Породим начальное множество профилей (например, каждый из имеющихся k-меров породит один профиль) Для каждого профиля: –найти наилучшего представителя в каждой последовательности –обновить профиль Повторять пока не сойдётся

Этот алгоритм сходится, но не может покинуть область локального максимума. Поэтому если начальное приближение было плохим, он сойдётся к ерунде. Решение: стохастическая оптимизация.

Имитация теплового отжига Цель: максимизировать информационное содержание I I =  j  b f(b,j)[log f(b,j) / p(b)] или любой другой функционал, измеряющий однородность множества сайтов

Алгоритм Обозначим: A – текущий сигнал (множество потенциальных сайтов), I(A) – его информационное содержание. B – сигнал, отличающийся от А выбором сайта в одной последовательности, I(B) – го информационное содержание. если I(B)  I(A), B принимается если I(B) < I(A), B принимается с вероятностью P = exp [(I(B) – I(A)) / T] Температура T медленно снижается, первоначально она такова, что почти все изменения принимаются (Р близко к 1).

Gibbs sampler Опять, A – сигнал, I(A) – его информационное содержание. На каждом шаге в одной последовательности выбирается новый сайт с вероятностью P ~ exp [(I(A new )] Для каждого потенциального сайта подсчитывается, сколько раз он был выбран. (Замечание: сигнал всё время меняется)

Использование свойств сигнала Днк-связывающие белки и их сигналы  Кооперативные однородные  палиндромы  прямые повторы  Кооперативные неоднородные  кассеты  Другие  РНКовые сигналы

Распознавание: весовые матрицы (профили) Позиционные веса нуклеодтидов W(b,j)=ln(N(b,j)+0.5) – 0.25  i ln(N(i,j)+0.5) Вес потенциального сайта b 1 …b k – это сумма соответствующих позиционных весов: S(b 1 …b k ) =  j=1,…,k W(b j,j)

Усиление слабого сигнала

Распределение весов сайтов связывания рибосом на сайтах (зеленый) и не-сайтах (красный)

Нейронные сети: архитектура 4  k входных нейронов (сенсоров), присутствие конкретного нуклеотида в конкретной позиции (да/нет) или 2  k нейронов (пурин/пиримидин, AT/GC) один или более слоёв внутренних нейронов один выходной нейрон (сайт/не-сайт)

каждый нейрон связан соединениями с нейронами соседнего уровня каждому соединению приписан вес Нейрон: суммирует (с весами) входящие сигналы сравнивает результат с порогом (или преобразует по заданному правилу) если сумма выше порога, отправляет сигнал всем нейронам следующего уровня (или просто преобразованное значение)

Обучение: Обработать сайты и не-сайты из обучающей выборки одни за одним, несколько полных итераций. Для каждого объекта сделать предсказание. Если оно неправильное, изменить веса. Сети отличаются архитектурой, способом обработки сигнала, расписанием обучения

Оценка качества алгоритмов Чувствительность: правильно предсказанные / все правильные Специфичность: правильно предсказанные / все предсказанные Трудно составить тестирующую выборку: –неизвестные сайты –активация в определенных условиях –неспецифическое связывание

Промоторы E. coli профиль, предсказывающий 1 сайт на 2000 нт, имеет чувствительность: –25% на всех промоторах, –60% на конститутивных (неактивируемых) промоторах

Эукарио- тические промоторы

Сайты связывания рибосом Надежность предсказания зависит от информационного содержания

CRP (E. coli)

Запись GenBank для гена E. coli

Что же делать? филогенетическое картирование: правильные сайты консервативны

Консервативная область

Менее консервативная область

rbsD в энтеробактериях: ответ Sty AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Sen AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Stm GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Eco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC Ype TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** Sty ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Sen ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Stm ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Eco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG Ype GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** *

Регулирующие модули обычно консервативны и часто содержат кластеры сходных сайтов связывания одинаковых молекул фактора (В.Макеев)

rVISTA:все / выравненные / консервативные сайты

ура!