Негеномные данные М.Гельфанд «Сравнительная геномика» БиБи 4 курс, Осень 2009.

Slides:



Advertisements
Similar presentations
Компьютерный анализ белковой последовательности Анализируют только аминокислотную последовательность белка, пренебрегают взаимодействием между боковыми.
Advertisements

Астрометрические каталоги К.В.Куимов, ГАИШ МГУ. Определение астрометрического каталога Астрометрический каталог – понятие неопределённое. Например, это.
Схема распределения грантов городам-участникам программы Тасис (TCAS) Экологические гранты для муниципалитетов.
Системы с наследованием. Если систему можно представить в виде : Где - непрерывные функции, то такая система называется системой с наследованием. Математическое.
Расторгуев А.C., 545 группа Научный руководитель: Пименов А.А. Рецензент: ст. преп. Смирнова Е.А.
Системы отбора. Условные обозначения (1) (2) (3) (4) (5) (6) (7) Математическое моделирование процессов отбора2.
Алгоритм приближённого join’а на потоках данных Выполнил : Юра Землянский, 445 группа Научный руководитель : Б.А. Новиков СПб, 2011 Санкт-Петербургский.
ЛОМОНОСОВ И МАТЕМАТИКА. Большое значение Ломоносов придавал математике, рекомендуя широко применять математические методы в других науках. Математику,
ООО «Баркод Маркет».  Инвентаризация имущества – программная система, позволяющая организовать учет любого имущества компании.  Уменьшение неконтролируемых.
Грековой Марии. Играет важную роль в формулировке современных теорий. Некоторые симметрии в современной физике считаются точными, другие — лишь приближёнными.
R1R2R3R4R5R6R7R1R2R3R4R5R6R7. Аксиома R 1. В пространстве существуют плоскости. В каждой плоскости пространства выполняются все аксиомы планиметрии.
Некомпенсаторное агрегирование и рейтингование студентов Авторы: Гончаров Алексей Александрович, Чистяков Вячеслав Васильевич. НФ ГУ ВШЭ 2010 год.
Неотрицательное решение задачи Коши. Нередко постановка задачи требует чтобы фазовые переменные принимали лишь неотрицательные значения. Так, в физических.
Bank ownership and lending behavior Alejandro Micco, Ugo Panizza Politicians and banks: Political influences on government-owned banks in emerging markets.
Определение необходимого уровня запасов на складе.
АВДАШЕВА СВЕТЛАНА КАФЕДРА ЭКОНОМИЧЕСКОГО АНАЛИЗА ОРГАНИЗАЦИЙ И РЫНКОВ 2011/2012 УЧЕБНЫЙ ГОД Теория отраслевых рынков (по выбору для 3 курса факультета.
Учитель математики Кулакова Т.М. МОУ ООШ №15 г.о Новокуйбышевск Самарской области Сентябрь 2011г.
Что называют химической реакцией? ? Перечислите условия протекания химических реакций. ?
Что за хулиган толкает пассажиров автобуса то вперед, то назад? Этот хулиган, вернее, хулиганка -
Создание сервиса синхронизации разнородных баз данных Допущена к защите зав. кафедрой: д.ф.м.н., профессор Терехов А.Н. Научный руководитель: доцент Графеева.
Обзор последних достижений биометрических методов аутентификации РусКрипто 2005.
Профили экспрессии (паттерны) различаются у нормальных и раковых клеток или при различных типах рака. Излечимые и неизлечимые виды лейкозов дают разные.
Частное равновесие на конкурентном рынке Частное равновесие: последствия государственного регулирования конкурентного рынка Распределение налогового бремени.
Функции IV. Биоинформатические ресурсы для работы с мембранными белками А.Б.Рахманинова (3 и 4 апреля 2007г.)
Блок 3. Семейства белков I. Множественное выравнивание Первый курс, весна 2008, А.Б.Рахманинова.
Решение задач на движение
1 Генерация контекстных ограничений для баз данных Выполнил: Жолудев В. Научный руководитель: Терехов А.Н. Рецензент: Иванов А.Н.
BLAST Что такое выравнивание Выравнивание 2х последовательностей
Михаил Налётов Активные продажи на сайте. Может ли ваш сайт работать еще эффективнее?
Основы цифровой обработки речевых сигналов. Общая схема процесса речеобразования x[n] – дискретные отсчеты сигнала возбуждения y[n] – дискретные отсчеты.
Growing Neural Gas Method Нейросетевой метод построения неструктурированных адаптивных сеток.
Ген-ориентированные базы данных и геномные браузеры Что такое ген-ориентированные базы данных? Самые простые примеры таких БД Примеры геном-ориентированных.
Магистерская программа двойных дипломов. Эта программа даёт вам возможность получить два диплома учебных заведений Великобритании и России: Диплом магистра.
Сравнение различных методов хранения XML в реляционных базах данных и в разных системах. Нгуен Тхань Хуен- 545 группа Руководитель : Б.А. Новиков Рецензент:
Структура белка Как предсказать вторичную структуру белка? Как найти и анализировать пространственную структуру, если она известна? Что можно делать, если.
А.Б. Рахманинова (13 апреля 2010 г.) Факультет Биоинженерии и Биоинформатики, 2 курс, весенний семестр Функции Мембранные белки. Транспортные белки.
 Нужно много различных протоколов связи  Каждый из них может реализовываться на разных платформах Современные сети Много устройств, компьютеров и сетей.
ЛЭТИ'20061 Семантическая классификация JPEG изображений Результаты экспериментального исследования.
"The European Molecular Biology Open Software Suite"
Мобильные ретроэлементы в геноме эукариот.. Ревертаза. РНК-зависимая ДНК- полимераза (ревертаза) способна катализировать синтез ДНК-копии (кДНК) на РНК-матрице.
Анализ сценариев. Имитационное моделирование. 2 Метод сценариев метод, основанный на построении набора сценариев - возможных непротиворечивых комбинаций.
Что можно делать с одиночной последовательностью ДНК? Как исключить векторные фланки? Рестрикционная карта Вашей последовательности Дизайн праймеров Анализ.
Нахождение ориджинов в последовательности нуклеотидов Выполнил: Ромашкин Амир, 445 гр. Руководитель: Профессор АФТУ, Порозов Юрий.
Adobe Photoshop CS2. Интерфейс редактора Меню Панель инструментов Палитры Контекстная панель.
Кураева Екатерина Анатольевна, заместитель директора по УВР, учитель математики сш № 29.
Маршрут, цепь, цикл Маршрутом называют последовательность вершин и ребер, в которой любые два соседних элемента инцидентны (т.е. соединены). Например:
Методы анализа данных. Статистическая проверка гипотез.
BioUML интегрированная расширяемая среда для моделирования биологических систем Biosoft.Ru Лабоработория Биоинформатики КТИ ВТ СО РАН
Разработка алгоритмов распознавания текста
Геоинформационные системы Чернышов Алексей Акимович.
Как найти последовательность, кодирующую Ваш белок? Как найти последовательность ДНК, кодирующую Ваш белок: – Ссылки из белковых баз данных – Прямой поиск.
 Функция общественного благосостояния: (1.7) Здесь все γ i >0  Бюджетное ограничение общества выглядит как: (1.8)  Общественная целевая функция: (1.9)
9 октября 2004 Поиск статических изображений по содержанию: использование текстового запроса Наталья Васильева
TMG Tel: 8 (495) Fax: 8 (477) Technology Management Group ООО «TMG» PayKeeper.
Множественное выравнивание С.А.Спирин, весна
Классификация, кластеризация и поиск изображений на основе низкоуровневых характеристик Наталья Васильева Руководитель: Новиков Б. А.
XML Схемы XML документов. XML Schema созданая Microsoft позволяет избавиться от DTD блоков. Основа – использование пространств имен и очень точная типизация.
Обработка исключений в C# Единая техника обнаружения ошибок времени выполнения и передачи информации о них.
Системная биология М.С.Гельфанд Учебно-научный центр «Биоинформатика» Институт проблем передачи информации РАН Международная школа «Биоинформатика, геномика,
OAUTHОРИЗАЦИЯ И API СОЦИАЛЬНЫХ СЕТЕЙ Артём Курапов.
Нескучное тестирование с pytest
Regulatory Genomics Lecture 2 November 2012 Yitzhak (Tzachi) Pilpel 1.
‘For and Against’ Essays Useful tips. Plan Introduction - Paragraph 1 (state topic – summary of the topic without giving your opinion) Main Body – Paragraph.
Проект «Почему мыльные пузыри круглые?» Муниципальное автономное общеобразовательное учреждение Чаинского района «Подгорнская средняя общеобразовательная.
Gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta.
A New Map for Navigating the Yeast Epigenome
* Любой табак кроме WTO Депозит берется в течение 20 мин, как подошли все гости* В депозит входят все позиции в меню* Депозит не возвращается*
ПРИНЯТИЕ БРОНИ.
ПРИНЯТИЕ БРОНЕЙ. ОСНОВНЫЕ ФРАЗЫ ПРИ ПРИНЯТИИ БРОНИ ПО ТЕЛЕФОНУ 1. Leto Lounge, (Петровка, Дубровка, Фрунзенская)/ Проект 6/2, имя, приветствие. 2. Уточнение.
Presentation transcript:

Негеномные данные М.Гельфанд «Сравнительная геномика» БиБи 4 курс, Осень 2009

Массовые негеномные данные (ко)-экспрессия Белок-ДНКовые взаимодействия Состав и концентрации белков Белок-белковые взаимодействия Одинарные и двойные мутанты (жизнеспособность, фенотипы) Всякие разные эксперименты (text mining) Много баз данных Мало удобных средств анализа

Expression arrays (a.k.a. олигонуклеотидные чипы) Олигонуклеотиды (зонды) нанесены на подложку Туда же льют (радиоактивно или флуоресцентно – можно 2 метки) меченую РНК или кДНК (например – один раунд с затравкой полиТ) – получаем (комплементарные цепи) 3’-концы генов Меряем в каждой лунке интенсивность – она пропорциональна концентрации

«техническая» биоинформатика Как подобрать зонды –Геномные соображения Не участок малой сложности (прилипнет к чему угодно) Не повтор (прилипнет ко мноим копиям) Уникальность (семейства генов) –Физические соображения Одинаковые температуры плавления Отсутствие комплементарности между зондами Отсутствие вторичной структуры в олигонуклеотиде Отсутствие вторичной структуры в мишени Как переделать интенсивности в концентрации (анализ изображений) Нормировка измерений в одном эксперименте / однородной серии экспериментов –Учет различий в условиях гибридизации и т.п. –Учет неравномерности по полю –Вычитание фона –Нормировка интенсивностей флуоресцентных меток (регрессия) –Логарифмы, потому что хотим нормального распределения ошибок приблизительно равномерного разброса наблюдений по шкале приблизительно колоколообразного распределения наблюдений вычитать, а не делить при анализе (статистические методы так лучше работают)

До и после логарифмирования (две метки; фибробласты, инфицированные Toxoplasma)

гистограммы до после

Виды чипов кДНКовые –ПЦР-амплификация известных генов –(можно сколь угодно либерально – брать все сомнительные гены) –Надо учитывать альтернативный сплайсинг, полиаденилирование, промоторы (трудно) –В зависимости от способа приготовления меченой кДНК, можно предпочитать 3’-концы Выстилающие (tiling) –Весь геном – по ~30 нуклеотидов со сдвигом ~10 нуклеотидов… –… за исключением повторов, микросателлитов и т.п.

Нормировка Для применения статистических методов надо, чтобы распределения были сравнимы (одинаковые средние и среднеквадратичные отклонения) для этого для каждого массива (первоначальных) данных вычитают среднее и делят на среднеквадратичное отклонение у получившегося распределения среднее равно 0, среднеквадратичное отклонение равно 1

Типичные задачи классификация измерений (например, диагностика) выбор генов, дифференциально экспрессирующихся в двух классах (диагностика, до/после) поиск групп ко-регулируемых генов

один ген, много измерений в двух независимых группах – одинаков ли уровень экспрессии? стандартные методы сравнения двух распределений –параметрические (t-тест) – предполагается нормальность распределений, но: выборки неоднородные, распределения не только не нормальные, но могут быть бимодальные, Outliers => ложно-положительные результаты (принимаем желаемое за действительное) –непараметрические (Уилкоксона-Манна-Уитни) небольшая статистическая сила => ложно-отрицательные результаты (можно пропустить значимый эффект)

bootstrapping берем те же данные, распределяем случайным образом по группам того же объема, и проводим такой же тест на сравнение распределений (например, вычисляем t-статистику) но теперь не смотрим в таблицу t- распределения, а производим эту операцию очень много раз и получаем распределение статистики на имеющихся данных и смотрим, какова же значимость

один ген, много пар измерений – есть ли разница? вычитаем первое измерение из второго и проверяем «среднее=0?» те же тесты, что и раньше

множественное тестирование статистическая значимость 1% означает, что в случайных данных 1 из 100 измерений (генов) будет иметь такое значение тысячи генов консервативный подход – поправка Бонферрони (умножать уровень значимости на количество генов) –слишком консервативно – ничего не значимо

bootstrapping альтернативный подход – посчитать, сколько генов пройдет данный порог на p-value в случайных данных того же объема эта доля генов – false positives выбрать уровень значимости с приемлемым уровнем false positives поправка Бонферрони соответствует 0% false positives

классификация выборок (тканей, диагнозов и т.п.): распознавание образов k ближайших соседей перцептрон и линейный дискриминантный анализ: измерения (скажем, пациенты) – точки в многомерном пространстве (координаты – уровни экспрессии генов); проводим плоскость, которая наилучшим образом разделяет выборки нейронный сети (обобщение) квадратичный анализ support vector machines (другое обобщение)

понижение размерности и over-interpretation можно обойтись меньшим числом измерений (гены-маркеры) не следует трактовать различия в уровне экспрессии как непосредственные причины (скажем, болезни) можно выбрать другой набор генов, который даст такое же качество диагноза

валидация стандартные правила гигиены теории распознавания образов обучающая выборка – подбор параметров тестирующая выборка – подбор модели экзамен – ОДИН РАЗ

корреляции между уровнями экспрессии генов сильная положительная r = 0.97 слабая отрицательная r = –0.43 никакой r = 0.054

временные ряды клеточный цикл (синхронизированные культуры) или последствия вмешательства измерения уровней экспрессии через фиксированные отрезки времени кластеризация полученных профилей экспрессии

Кластеризация профилей

мера сходства между профилями: нужна нормировка (корреляция нормирует автоматически)

методы иерархической кластеризации ближнего соседа (single linkage) дальнего соседа (complete linkage) средневзвешенное расстояние (average linkage)

мера близости – корреляция, метод кластеризации – среднеевзвешенное

кластеризация k-средних k-means clustering количество кластеров задается заранее создать случайные кластеры найти центроиды перераспределить точки – отнести точку к тому кластеру, к центроиду которого эта точка ближе повторить пока не сойдется не получается иерархической системы: система кластеров при k+1 не сводится к разделению одного из k кластеров на два

разнообразные условия – двойная кластеризация (biclustering) если по столбцам – не времена, а различные условия (да еще и из разных экспериментов), то не обязательно корреляция должна наблюдаться на всем множестве условий двойная кластеризация: выделение групп генов и групп условий, т.ч. экспрессия этих генов скоррелирована в этих условиях

базы данных результатов экспериментов по анализу экспрессии ArrayExpress Stanford Microarray Database GEO (Gene Expression Omnibus) Стандартизованная форма данных об эксперименте (MIAME: Minimal Iinformation About a Microarray Experiment)

GEO

Развитие цветка резухи Таля двойная кластериза ция – на генах и на условиях

Один ген – разные условия (времена, мутанты)

программы R (GNU) Matlab Expression Profiler (EBI)

Expression Profiler

prophecies_html/prophecies.html

STRING: trpB co-expression

протеомика – двумерный форез двумерный форез –пятна (масса/заряд) масс-спектрометрия –пептиды в обоих случаях нужен геном. Для фореза – точные гены (старты! точнее даже белки без сигнальных пептидов)

Pride

протеомика – белковые чипы белки наносятся на подложку, потом можно измерять активность (например, связывание)

белок-белковые взаимодействия комплексы – масс-спектрометрия дрожжевые двугибридные системы –GAL4 –два домена: димеризационный (связывает галактозу) и ДНК-связывающий –димер связывается с оператором –димеризационный и ДНК-связывающий домены могут быть в разных белках (связь через тестируемые белки)

Protein-protein interactions MIPS, mammals: MIPS, yeast: proj/yeast/CYGD/interaction/ MRC, links: GenomeWeb/prot-interaction.html DIP, many model organisms: dip/Main.cgi

STRING: trpB high- throughput experiments

ChIP-chip (chromatin immunoprecipitation) Briefly, cells are fixed with formaldehyde, harvested by sonication, and DNA fragments that are crosslinked to a protein of interest are enriched by immunoprecipitation with a specific antibody. After reversal of the crosslinking, the enriched DNA is amplified and labeled with a fluorescent dye using ligation-mediated PCR (LM-PCR). A sample of DNA that has not been enriched by immunoprecipitation is subjected to LM-PCR in the presence of a different fluorophore, and both IP-enriched and unenriched pools of labeled DNA are hybridized to a single DNA microarray containing all yeast intergenic sequences.DNA microarray containing all yeast intergenic sequences

фенотипы essentiality –18.7% non-essential genes in yeast –14.4% non-essential genes in E. coli –… в «богатых» условиях RNAi synthetic lethals

MIPS

Как это используют Так же, как любые слабые соображения

Ингибитор РНКазы L [Huynen, Gabaldon] COG1245 – присутствует во всех эукариотах и археях У человека RPLI1 – ингибитор РНКазы L (интерферон- зависимый путь деградации (вирусных) РНК) Но РНКазы L у архей нет. Что же там делает этот белок?

Филогенетический профиль (присутствие во всех археях и эукариотах, отсутствие во всех бактериях) => 55 COGов –Трансляция, биогенез рибосом, транскрипция, репликация, рекомбинация, репарация В эукариотах – коэкспрессия с рибосомными белками и белками процессинга рРНК В дрожжах – белок-белковое взаимодействие с HCR1 (процессинг рРНК) Эксперимент (трипаносома): слабая экспрессия RLI1 => уменьшение общего уровня синтеза белков N-концевой домен содержит 4 цистеина – связывание с РНК? Предсказание: RLI1 – фактор процессинга рРНК Эксперимент: и впрямь –мутанты по RLI1 имеют дефект процессинга пре-рРНК –в дрожжах RLI1 связан с незрелыми и зрелыми малыми субъединицами рибосом

Систематический анализ генов дрожжей [Kemmeren et al. 2005] Белок-белковые взаимодействия Корреляция профилей экспрессии Ко-локализация Сходство фенотипов

KRE33 “killer toxin resistant”, no GO annotation 20 связанных генов 13: часть комплекса U3 snoRNP (процессинг рРНК) 4: метаболизм мРНК

FUN11: “function unknown now” Все 5 соседей – инициация трансляции

YDR091c: “putative member of the ATP-binding cassette superfamily of non-transporters” 10 из 15 соседей – инициация трансляции

YGR205w – HSP104 (ppi+exp+loc) HSP104: белок теплового шока; мутанты термочувствительны. Шаперон. Коэкспрессия HSP104 и YGR205w наблюдается при разных шоках Предсказание: YGR205w тоже участвует в ответе на стресс Эксперимент: мутанты по YGR205w имеют повышенную термоустойчивость Та же система, противоположное действие – разные фенотипы

ASC1 (no annotation) 4 гена – процессинг рРНК 6 факторов инициации трансляции Ydj1 и ZUO1 имеют домены, гомологичные DnaJ (шаперон, работает при тепловом и (другом) шоке), ZUO1 – шаперон, связанный с рибосомой Предсказания: –Ydj1 – шаперон –ASC1 – “a role in stress- induced misfolding” Эксперимент: мутанты по Ydj1 и ASC1 плохо растут при повышенной концентрации NaCl и KCl

Путь синтеза лейцина в дрожжах Начинается в митохондрии, заканчивается в цитоплазме Транспортер изопропилмалата (промежуточный продукт) не известен Кандидат: YOR271cp. Мотивировка: –Локализован в митохондрии –4 трансмембранных сегмента –Консервативный сайт связывания лейцинового регулятора Leu3p –Регуляторная область YOR271c связывает Leu3p в ChIP-chip эксперименте (специфичность и чувствительность эксперимента примерно по 50%, других кандидатов с консервативными сайтами нет) –Гомологичен транспортеру трикарбоксилатов крысы (хотя эксперимент был подвернут сомнению; вторая возможная функция – сидерофлексин, белок, участвующий в гомеостазе железа)