Download presentation
Presentation is loading. Please wait.
1
Негеномные данные М.Гельфанд «Сравнительная геномика» БиБи 4 курс, Осень 2009
2
Массовые негеномные данные (ко)-экспрессия Белок-ДНКовые взаимодействия Состав и концентрации белков Белок-белковые взаимодействия Одинарные и двойные мутанты (жизнеспособность, фенотипы) Всякие разные эксперименты (text mining) Много баз данных Мало удобных средств анализа
3
Expression arrays (a.k.a. олигонуклеотидные чипы) Олигонуклеотиды (зонды) нанесены на подложку Туда же льют (радиоактивно или флуоресцентно – можно 2 метки) меченую РНК или кДНК (например – один раунд с затравкой полиТ) – получаем (комплементарные цепи) 3’-концы генов Меряем в каждой лунке интенсивность – она пропорциональна концентрации
4
«техническая» биоинформатика Как подобрать зонды –Геномные соображения Не участок малой сложности (прилипнет к чему угодно) Не повтор (прилипнет ко мноим копиям) Уникальность (семейства генов) –Физические соображения Одинаковые температуры плавления Отсутствие комплементарности между зондами Отсутствие вторичной структуры в олигонуклеотиде Отсутствие вторичной структуры в мишени Как переделать интенсивности в концентрации (анализ изображений) Нормировка измерений в одном эксперименте / однородной серии экспериментов –Учет различий в условиях гибридизации и т.п. –Учет неравномерности по полю –Вычитание фона –Нормировка интенсивностей флуоресцентных меток (регрессия) –Логарифмы, потому что хотим нормального распределения ошибок приблизительно равномерного разброса наблюдений по шкале приблизительно колоколообразного распределения наблюдений вычитать, а не делить при анализе (статистические методы так лучше работают)
5
До и после логарифмирования (две метки; фибробласты, инфицированные Toxoplasma)
6
гистограммы до после
7
Виды чипов кДНКовые –ПЦР-амплификация известных генов –(можно сколь угодно либерально – брать все сомнительные гены) –Надо учитывать альтернативный сплайсинг, полиаденилирование, промоторы (трудно) –В зависимости от способа приготовления меченой кДНК, можно предпочитать 3’-концы Выстилающие (tiling) –Весь геном – по ~30 нуклеотидов со сдвигом ~10 нуклеотидов… –… за исключением повторов, микросателлитов и т.п.
8
Нормировка Для применения статистических методов надо, чтобы распределения были сравнимы (одинаковые средние и среднеквадратичные отклонения) для этого для каждого массива (первоначальных) данных вычитают среднее и делят на среднеквадратичное отклонение у получившегося распределения среднее равно 0, среднеквадратичное отклонение равно 1
9
Типичные задачи классификация измерений (например, диагностика) выбор генов, дифференциально экспрессирующихся в двух классах (диагностика, до/после) поиск групп ко-регулируемых генов
10
один ген, много измерений в двух независимых группах – одинаков ли уровень экспрессии? стандартные методы сравнения двух распределений –параметрические (t-тест) – предполагается нормальность распределений, но: выборки неоднородные, распределения не только не нормальные, но могут быть бимодальные, Outliers => ложно-положительные результаты (принимаем желаемое за действительное) –непараметрические (Уилкоксона-Манна-Уитни) небольшая статистическая сила => ложно-отрицательные результаты (можно пропустить значимый эффект)
11
bootstrapping берем те же данные, распределяем случайным образом по группам того же объема, и проводим такой же тест на сравнение распределений (например, вычисляем t-статистику) но теперь не смотрим в таблицу t- распределения, а производим эту операцию очень много раз и получаем распределение статистики на имеющихся данных и смотрим, какова же значимость
12
один ген, много пар измерений – есть ли разница? вычитаем первое измерение из второго и проверяем «среднее=0?» те же тесты, что и раньше
13
множественное тестирование статистическая значимость 1% означает, что в случайных данных 1 из 100 измерений (генов) будет иметь такое значение тысячи генов консервативный подход – поправка Бонферрони (умножать уровень значимости на количество генов) –слишком консервативно – ничего не значимо
14
bootstrapping альтернативный подход – посчитать, сколько генов пройдет данный порог на p-value в случайных данных того же объема эта доля генов – false positives выбрать уровень значимости с приемлемым уровнем false positives поправка Бонферрони соответствует 0% false positives
15
классификация выборок (тканей, диагнозов и т.п.): распознавание образов k ближайших соседей перцептрон и линейный дискриминантный анализ: измерения (скажем, пациенты) – точки в многомерном пространстве (координаты – уровни экспрессии генов); проводим плоскость, которая наилучшим образом разделяет выборки нейронный сети (обобщение) квадратичный анализ support vector machines (другое обобщение)
16
понижение размерности и over-interpretation можно обойтись меньшим числом измерений (гены-маркеры) не следует трактовать различия в уровне экспрессии как непосредственные причины (скажем, болезни) можно выбрать другой набор генов, который даст такое же качество диагноза
17
валидация стандартные правила гигиены теории распознавания образов обучающая выборка – подбор параметров тестирующая выборка – подбор модели экзамен – ОДИН РАЗ
18
корреляции между уровнями экспрессии генов сильная положительная r = 0.97 слабая отрицательная r = –0.43 никакой r = 0.054
19
временные ряды клеточный цикл (синхронизированные культуры) или последствия вмешательства измерения уровней экспрессии через фиксированные отрезки времени кластеризация полученных профилей экспрессии
20
Кластеризация профилей
21
мера сходства между профилями: нужна нормировка (корреляция нормирует автоматически)
22
методы иерархической кластеризации ближнего соседа (single linkage) дальнего соседа (complete linkage) средневзвешенное расстояние (average linkage)
23
мера близости – корреляция, метод кластеризации – среднеевзвешенное
24
кластеризация k-средних k-means clustering количество кластеров задается заранее создать случайные кластеры найти центроиды перераспределить точки – отнести точку к тому кластеру, к центроиду которого эта точка ближе повторить пока не сойдется не получается иерархической системы: система кластеров при k+1 не сводится к разделению одного из k кластеров на два
25
разнообразные условия – двойная кластеризация (biclustering) если по столбцам – не времена, а различные условия (да еще и из разных экспериментов), то не обязательно корреляция должна наблюдаться на всем множестве условий двойная кластеризация: выделение групп генов и групп условий, т.ч. экспрессия этих генов скоррелирована в этих условиях
26
базы данных результатов экспериментов по анализу экспрессии ArrayExpress http://www.ebi.ac.uk/microarray/ArrayExpress/arrayxpress.html Stanford Microarray Database http://genome-www5.stanford.edu/MicroArray/NDEV/index.shtml GEO (Gene Expression Omnibus) http://www.ncbi.nlm.nih.gov/geo/ Стандартизованная форма данных об эксперименте (MIAME: Minimal Iinformation About a Microarray Experiment)
27
GEO
29
Развитие цветка резухи Таля двойная кластериза ция – на генах и на условиях
30
Один ген – разные условия (времена, мутанты)
31
программы R (GNU) Matlab Expression Profiler (EBI) http://www.ebi.ac.uk/microarray/ExpressionProfiler/ep.html
32
Expression Profiler
33
http://string.embl-heidelberg.de:8080/ prophecies_html/prophecies.html
34
STRING: trpB co-expression
36
протеомика – двумерный форез двумерный форез –пятна (масса/заряд) масс-спектрометрия –пептиды в обоих случаях нужен геном. Для фореза – точные гены (старты! точнее даже белки без сигнальных пептидов)
37
Pride
39
протеомика – белковые чипы белки наносятся на подложку, потом можно измерять активность (например, связывание)
40
белок-белковые взаимодействия комплексы – масс-спектрометрия дрожжевые двугибридные системы –GAL4 –два домена: димеризационный (связывает галактозу) и ДНК-связывающий –димер связывается с оператором –димеризационный и ДНК-связывающий домены могут быть в разных белках (связь через тестируемые белки)
41
Protein-protein interactions MIPS, mammals: http://mips.gsf.de/proj/ppi/ MIPS, yeast: http://mips.gsf.de/ proj/yeast/CYGD/interaction/ MRC, links: http://www.hgmp.mrc.ac.uk/ GenomeWeb/prot-interaction.html DIP, many model organisms: http://dip.doe-mbi.ucla.edu/ dip/Main.cgi
49
STRING: trpB high- throughput experiments
50
ChIP-chip (chromatin immunoprecipitation) Briefly, cells are fixed with formaldehyde, harvested by sonication, and DNA fragments that are crosslinked to a protein of interest are enriched by immunoprecipitation with a specific antibody. After reversal of the crosslinking, the enriched DNA is amplified and labeled with a fluorescent dye using ligation-mediated PCR (LM-PCR). A sample of DNA that has not been enriched by immunoprecipitation is subjected to LM-PCR in the presence of a different fluorophore, and both IP-enriched and unenriched pools of labeled DNA are hybridized to a single DNA microarray containing all yeast intergenic sequences.DNA microarray containing all yeast intergenic sequences
52
фенотипы essentiality –18.7% non-essential genes in yeast –14.4% non-essential genes in E. coli –… в «богатых» условиях RNAi synthetic lethals
53
MIPS
54
Как это используют Так же, как любые слабые соображения
55
Ингибитор РНКазы L [Huynen, Gabaldon] COG1245 – присутствует во всех эукариотах и археях У человека RPLI1 – ингибитор РНКазы L (интерферон- зависимый путь деградации (вирусных) РНК) Но РНКазы L у архей нет. Что же там делает этот белок?
56
Филогенетический профиль (присутствие во всех археях и эукариотах, отсутствие во всех бактериях) => 55 COGов –Трансляция, биогенез рибосом, транскрипция, репликация, рекомбинация, репарация В эукариотах – коэкспрессия с рибосомными белками и белками процессинга рРНК В дрожжах – белок-белковое взаимодействие с HCR1 (процессинг рРНК) Эксперимент (трипаносома): слабая экспрессия RLI1 => уменьшение общего уровня синтеза белков N-концевой домен содержит 4 цистеина – связывание с РНК? Предсказание: RLI1 – фактор процессинга рРНК Эксперимент: и впрямь –мутанты по RLI1 имеют дефект процессинга пре-рРНК –в дрожжах RLI1 связан с незрелыми и зрелыми малыми субъединицами рибосом
57
Систематический анализ генов дрожжей [Kemmeren et al. 2005] Белок-белковые взаимодействия Корреляция профилей экспрессии Ко-локализация Сходство фенотипов
58
KRE33 “killer toxin resistant”, no GO annotation 20 связанных генов 13: часть комплекса U3 snoRNP (процессинг рРНК) 4: метаболизм мРНК
59
FUN11: “function unknown now” Все 5 соседей – инициация трансляции
60
YDR091c: “putative member of the ATP-binding cassette superfamily of non-transporters” 10 из 15 соседей – инициация трансляции
61
YGR205w – HSP104 (ppi+exp+loc) HSP104: белок теплового шока; мутанты термочувствительны. Шаперон. Коэкспрессия HSP104 и YGR205w наблюдается при разных шоках Предсказание: YGR205w тоже участвует в ответе на стресс Эксперимент: мутанты по YGR205w имеют повышенную термоустойчивость Та же система, противоположное действие – разные фенотипы
62
ASC1 (no annotation) 4 гена – процессинг рРНК 6 факторов инициации трансляции Ydj1 и ZUO1 имеют домены, гомологичные DnaJ (шаперон, работает при тепловом и (другом) шоке), ZUO1 – шаперон, связанный с рибосомой Предсказания: –Ydj1 – шаперон –ASC1 – “a role in stress- induced misfolding” Эксперимент: мутанты по Ydj1 и ASC1 плохо растут при повышенной концентрации NaCl и KCl
63
Путь синтеза лейцина в дрожжах Начинается в митохондрии, заканчивается в цитоплазме Транспортер изопропилмалата (промежуточный продукт) не известен Кандидат: YOR271cp. Мотивировка: –Локализован в митохондрии –4 трансмембранных сегмента –Консервативный сайт связывания лейцинового регулятора Leu3p –Регуляторная область YOR271c связывает Leu3p в ChIP-chip эксперименте (специфичность и чувствительность эксперимента примерно по 50%, других кандидатов с консервативными сайтами нет) –Гомологичен транспортеру трикарбоксилатов крысы (хотя эксперимент был подвернут сомнению; вторая возможная функция – сидерофлексин, белок, участвующий в гомеостазе железа)
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.