Presentation is loading. Please wait.

Presentation is loading. Please wait.

Негеномные данные М.Гельфанд «Сравнительная геномика» БиБи 4 курс, Осень 2009.

Similar presentations


Presentation on theme: "Негеномные данные М.Гельфанд «Сравнительная геномика» БиБи 4 курс, Осень 2009."— Presentation transcript:

1 Негеномные данные М.Гельфанд «Сравнительная геномика» БиБи 4 курс, Осень 2009

2 Массовые негеномные данные (ко)-экспрессия Белок-ДНКовые взаимодействия Состав и концентрации белков Белок-белковые взаимодействия Одинарные и двойные мутанты (жизнеспособность, фенотипы) Всякие разные эксперименты (text mining) Много баз данных Мало удобных средств анализа

3 Expression arrays (a.k.a. олигонуклеотидные чипы) Олигонуклеотиды (зонды) нанесены на подложку Туда же льют (радиоактивно или флуоресцентно – можно 2 метки) меченую РНК или кДНК (например – один раунд с затравкой полиТ) – получаем (комплементарные цепи) 3’-концы генов Меряем в каждой лунке интенсивность – она пропорциональна концентрации

4 «техническая» биоинформатика Как подобрать зонды –Геномные соображения Не участок малой сложности (прилипнет к чему угодно) Не повтор (прилипнет ко мноим копиям) Уникальность (семейства генов) –Физические соображения Одинаковые температуры плавления Отсутствие комплементарности между зондами Отсутствие вторичной структуры в олигонуклеотиде Отсутствие вторичной структуры в мишени Как переделать интенсивности в концентрации (анализ изображений) Нормировка измерений в одном эксперименте / однородной серии экспериментов –Учет различий в условиях гибридизации и т.п. –Учет неравномерности по полю –Вычитание фона –Нормировка интенсивностей флуоресцентных меток (регрессия) –Логарифмы, потому что хотим нормального распределения ошибок приблизительно равномерного разброса наблюдений по шкале приблизительно колоколообразного распределения наблюдений вычитать, а не делить при анализе (статистические методы так лучше работают)

5 До и после логарифмирования (две метки; фибробласты, инфицированные Toxoplasma)

6 гистограммы до после

7 Виды чипов кДНКовые –ПЦР-амплификация известных генов –(можно сколь угодно либерально – брать все сомнительные гены) –Надо учитывать альтернативный сплайсинг, полиаденилирование, промоторы (трудно) –В зависимости от способа приготовления меченой кДНК, можно предпочитать 3’-концы Выстилающие (tiling) –Весь геном – по ~30 нуклеотидов со сдвигом ~10 нуклеотидов… –… за исключением повторов, микросателлитов и т.п.

8 Нормировка Для применения статистических методов надо, чтобы распределения были сравнимы (одинаковые средние и среднеквадратичные отклонения) для этого для каждого массива (первоначальных) данных вычитают среднее и делят на среднеквадратичное отклонение у получившегося распределения среднее равно 0, среднеквадратичное отклонение равно 1

9 Типичные задачи классификация измерений (например, диагностика) выбор генов, дифференциально экспрессирующихся в двух классах (диагностика, до/после) поиск групп ко-регулируемых генов

10 один ген, много измерений в двух независимых группах – одинаков ли уровень экспрессии? стандартные методы сравнения двух распределений –параметрические (t-тест) – предполагается нормальность распределений, но: выборки неоднородные, распределения не только не нормальные, но могут быть бимодальные, Outliers => ложно-положительные результаты (принимаем желаемое за действительное) –непараметрические (Уилкоксона-Манна-Уитни) небольшая статистическая сила => ложно-отрицательные результаты (можно пропустить значимый эффект)

11 bootstrapping берем те же данные, распределяем случайным образом по группам того же объема, и проводим такой же тест на сравнение распределений (например, вычисляем t-статистику) но теперь не смотрим в таблицу t- распределения, а производим эту операцию очень много раз и получаем распределение статистики на имеющихся данных и смотрим, какова же значимость

12 один ген, много пар измерений – есть ли разница? вычитаем первое измерение из второго и проверяем «среднее=0?» те же тесты, что и раньше

13 множественное тестирование статистическая значимость 1% означает, что в случайных данных 1 из 100 измерений (генов) будет иметь такое значение тысячи генов консервативный подход – поправка Бонферрони (умножать уровень значимости на количество генов) –слишком консервативно – ничего не значимо

14 bootstrapping альтернативный подход – посчитать, сколько генов пройдет данный порог на p-value в случайных данных того же объема эта доля генов – false positives выбрать уровень значимости с приемлемым уровнем false positives поправка Бонферрони соответствует 0% false positives

15 классификация выборок (тканей, диагнозов и т.п.): распознавание образов k ближайших соседей перцептрон и линейный дискриминантный анализ: измерения (скажем, пациенты) – точки в многомерном пространстве (координаты – уровни экспрессии генов); проводим плоскость, которая наилучшим образом разделяет выборки нейронный сети (обобщение) квадратичный анализ support vector machines (другое обобщение)

16 понижение размерности и over-interpretation можно обойтись меньшим числом измерений (гены-маркеры) не следует трактовать различия в уровне экспрессии как непосредственные причины (скажем, болезни) можно выбрать другой набор генов, который даст такое же качество диагноза

17 валидация стандартные правила гигиены теории распознавания образов обучающая выборка – подбор параметров тестирующая выборка – подбор модели экзамен – ОДИН РАЗ

18 корреляции между уровнями экспрессии генов сильная положительная r = 0.97 слабая отрицательная r = –0.43 никакой r = 0.054

19 временные ряды клеточный цикл (синхронизированные культуры) или последствия вмешательства измерения уровней экспрессии через фиксированные отрезки времени кластеризация полученных профилей экспрессии

20 Кластеризация профилей

21 мера сходства между профилями: нужна нормировка (корреляция нормирует автоматически)

22 методы иерархической кластеризации ближнего соседа (single linkage) дальнего соседа (complete linkage) средневзвешенное расстояние (average linkage)

23 мера близости – корреляция, метод кластеризации – среднеевзвешенное

24 кластеризация k-средних k-means clustering количество кластеров задается заранее создать случайные кластеры найти центроиды перераспределить точки – отнести точку к тому кластеру, к центроиду которого эта точка ближе повторить пока не сойдется не получается иерархической системы: система кластеров при k+1 не сводится к разделению одного из k кластеров на два

25 разнообразные условия – двойная кластеризация (biclustering) если по столбцам – не времена, а различные условия (да еще и из разных экспериментов), то не обязательно корреляция должна наблюдаться на всем множестве условий двойная кластеризация: выделение групп генов и групп условий, т.ч. экспрессия этих генов скоррелирована в этих условиях

26 базы данных результатов экспериментов по анализу экспрессии ArrayExpress http://www.ebi.ac.uk/microarray/ArrayExpress/arrayxpress.html Stanford Microarray Database http://genome-www5.stanford.edu/MicroArray/NDEV/index.shtml GEO (Gene Expression Omnibus) http://www.ncbi.nlm.nih.gov/geo/ Стандартизованная форма данных об эксперименте (MIAME: Minimal Iinformation About a Microarray Experiment)

27 GEO

28

29 Развитие цветка резухи Таля двойная кластериза ция – на генах и на условиях

30 Один ген – разные условия (времена, мутанты)

31 программы R (GNU) Matlab Expression Profiler (EBI) http://www.ebi.ac.uk/microarray/ExpressionProfiler/ep.html

32 Expression Profiler

33 http://string.embl-heidelberg.de:8080/ prophecies_html/prophecies.html

34 STRING: trpB co-expression

35

36 протеомика – двумерный форез двумерный форез –пятна (масса/заряд) масс-спектрометрия –пептиды в обоих случаях нужен геном. Для фореза – точные гены (старты! точнее даже белки без сигнальных пептидов)

37 Pride

38

39 протеомика – белковые чипы белки наносятся на подложку, потом можно измерять активность (например, связывание)

40 белок-белковые взаимодействия комплексы – масс-спектрометрия дрожжевые двугибридные системы –GAL4 –два домена: димеризационный (связывает галактозу) и ДНК-связывающий –димер связывается с оператором –димеризационный и ДНК-связывающий домены могут быть в разных белках (связь через тестируемые белки)

41 Protein-protein interactions MIPS, mammals: http://mips.gsf.de/proj/ppi/ MIPS, yeast: http://mips.gsf.de/ proj/yeast/CYGD/interaction/ MRC, links: http://www.hgmp.mrc.ac.uk/ GenomeWeb/prot-interaction.html DIP, many model organisms: http://dip.doe-mbi.ucla.edu/ dip/Main.cgi

42

43

44

45

46

47

48

49 STRING: trpB high- throughput experiments

50 ChIP-chip (chromatin immunoprecipitation) Briefly, cells are fixed with formaldehyde, harvested by sonication, and DNA fragments that are crosslinked to a protein of interest are enriched by immunoprecipitation with a specific antibody. After reversal of the crosslinking, the enriched DNA is amplified and labeled with a fluorescent dye using ligation-mediated PCR (LM-PCR). A sample of DNA that has not been enriched by immunoprecipitation is subjected to LM-PCR in the presence of a different fluorophore, and both IP-enriched and unenriched pools of labeled DNA are hybridized to a single DNA microarray containing all yeast intergenic sequences.DNA microarray containing all yeast intergenic sequences

51

52 фенотипы essentiality –18.7% non-essential genes in yeast –14.4% non-essential genes in E. coli –… в «богатых» условиях RNAi synthetic lethals

53 MIPS

54 Как это используют Так же, как любые слабые соображения

55 Ингибитор РНКазы L [Huynen, Gabaldon] COG1245 – присутствует во всех эукариотах и археях У человека RPLI1 – ингибитор РНКазы L (интерферон- зависимый путь деградации (вирусных) РНК) Но РНКазы L у архей нет. Что же там делает этот белок?

56 Филогенетический профиль (присутствие во всех археях и эукариотах, отсутствие во всех бактериях) => 55 COGов –Трансляция, биогенез рибосом, транскрипция, репликация, рекомбинация, репарация В эукариотах – коэкспрессия с рибосомными белками и белками процессинга рРНК В дрожжах – белок-белковое взаимодействие с HCR1 (процессинг рРНК) Эксперимент (трипаносома): слабая экспрессия RLI1 => уменьшение общего уровня синтеза белков N-концевой домен содержит 4 цистеина – связывание с РНК? Предсказание: RLI1 – фактор процессинга рРНК Эксперимент: и впрямь –мутанты по RLI1 имеют дефект процессинга пре-рРНК –в дрожжах RLI1 связан с незрелыми и зрелыми малыми субъединицами рибосом

57 Систематический анализ генов дрожжей [Kemmeren et al. 2005] Белок-белковые взаимодействия Корреляция профилей экспрессии Ко-локализация Сходство фенотипов

58 KRE33 “killer toxin resistant”, no GO annotation 20 связанных генов 13: часть комплекса U3 snoRNP (процессинг рРНК) 4: метаболизм мРНК

59 FUN11: “function unknown now” Все 5 соседей – инициация трансляции

60 YDR091c: “putative member of the ATP-binding cassette superfamily of non-transporters” 10 из 15 соседей – инициация трансляции

61 YGR205w – HSP104 (ppi+exp+loc) HSP104: белок теплового шока; мутанты термочувствительны. Шаперон. Коэкспрессия HSP104 и YGR205w наблюдается при разных шоках Предсказание: YGR205w тоже участвует в ответе на стресс Эксперимент: мутанты по YGR205w имеют повышенную термоустойчивость Та же система, противоположное действие – разные фенотипы

62 ASC1 (no annotation) 4 гена – процессинг рРНК 6 факторов инициации трансляции Ydj1 и ZUO1 имеют домены, гомологичные DnaJ (шаперон, работает при тепловом и (другом) шоке), ZUO1 – шаперон, связанный с рибосомой Предсказания: –Ydj1 – шаперон –ASC1 – “a role in stress- induced misfolding” Эксперимент: мутанты по Ydj1 и ASC1 плохо растут при повышенной концентрации NaCl и KCl

63 Путь синтеза лейцина в дрожжах Начинается в митохондрии, заканчивается в цитоплазме Транспортер изопропилмалата (промежуточный продукт) не известен Кандидат: YOR271cp. Мотивировка: –Локализован в митохондрии –4 трансмембранных сегмента –Консервативный сайт связывания лейцинового регулятора Leu3p –Регуляторная область YOR271c связывает Leu3p в ChIP-chip эксперименте (специфичность и чувствительность эксперимента примерно по 50%, других кандидатов с консервативными сайтами нет) –Гомологичен транспортеру трикарбоксилатов крысы (хотя эксперимент был подвернут сомнению; вторая возможная функция – сидерофлексин, белок, участвующий в гомеостазе железа)


Download ppt "Негеномные данные М.Гельфанд «Сравнительная геномика» БиБи 4 курс, Осень 2009."

Similar presentations


Ads by Google