Системная биология М.С.Гельфанд Учебно-научный центр «Биоинформатика» Институт проблем передачи информации РАН Международная школа «Биоинформатика, геномика,

Slides:



Advertisements
Similar presentations
Transcriptional regulatory code of a eukaryotic genome Harbison CT et al. Nature, 2004, Vol. 431, pp Milica Volar 3 March 2005.
Advertisements

Chromatin Immuno-precipitation (CHIP)-chip Analysis
Biological networks: Types and sources Protein-protein interactions, Protein complexes, and network properties.
Basic Genomic Characteristic  AIM: to collect as much general information as possible about your gene: Nucleotide sequence Databases ○ NCBI GenBank ○
Detecting DNA-protein Interactions Xinghua Lu Dept Biomedical Informatics BIOST 2055.
Detecting topological patterns in protein networks Sergei Maslov Brookhaven National Laboratory.
Gene expression analysis summary Where are we now?
Негеномные данные М.Гельфанд «Сравнительная геномика» БиБи 4 курс, Осень 2009.
Regulatory networks 10/29/07. Definition of a module Module here has broader meanings than before. A functional module is a discrete entity whose function.
27803::Systems Biology1CBS, Department of Systems Biology Schedule for the Afternoon 13:00 – 13:30ChIP-chip lecture 13:30 – 14:30Exercise 14:30 – 14:45Break.
Gene Co-expression Network Analysis BMI 730 Kun Huang Department of Biomedical Informatics Ohio State University.
Chip arrays and gene expression data. With the chip array technology, one can measure the expression of 10,000 (~all) genes at once. Can answer questions.
Ген-ориентированные базы данных и геномные браузеры Что такое ген-ориентированные базы данных? Самые простые примеры таких БД Примеры геном-ориентированных.
Biological networks: Types and origin Protein-protein interactions, complexes, and network properties Thomas Skøt Jensen Center for Biological Sequence.
Schedule for the Afternoon 13:00 – 13:30ChIP-chip lecture 13:30 – 14:30Exercise 14:30 – 14:45Break 14:45 – 15:15Regulatory pathways lecture 15:15 – 15:45Exercise.
Protein domains vs. structure domains - an example.
Microarrays and Cancer Segal et al. CS 466 Saurabh Sinha.
Functional annotation and network reconstruction through cross-platform integration of microarray data X. J. Zhou et al
Gene Expression and Networks. 2 Microarray Analysis Unsupervised -Partion Methods K-means SOM (Self Organizing Maps -Hierarchical Clustering Supervised.
1 Protein-Protein Interaction Networks MSC Seminar in Computational Biology
CHAPTER 15 Microbial Genomics Genomic Cloning Techniques Vectors for Genomic Cloning and Sequencing MS2, RNA virus nt sequenced in 1976 X17, ssDNA.
Chip arrays and gene expression data. Motivation.
BACKGROUND E. coli is a free living, gram negative bacterium which colonizes the lower gut of animals. Since it is a model organism, a lot of experimental.
Evidence for dynamically organized modularity in the yeast protein- protein interaction network Han, et al
Graph, Search Algorithms Ka-Lok Ng Department of Bioinformatics Asia University.
27803::Systems Biology1CBS, Department of Systems Biology Schedule for the Afternoon 13:00 – 13:30ChIP-chip lecture 13:30 – 14:30Exercise 14:30 – 14:45Break.
Modeling Functional Genomics Datasets CVM Lesson 1 13 June 2007Bindu Nanduri.
Biological networks: Types and origin
Introduction to molecular networks Sushmita Roy BMI/CS 576 Nov 6 th, 2014.
Review of important points from the NCBI lectures. –Example slides Review the two types of microarray platforms. –Spotted arrays –Affymetrix Specific examples.
Pathway Informatics 6 th July, 2015 Ansuman Chattopadhyay, PhD Head, Molecular Biology Information Services Health Sciences Library System University of.
Computational Molecular Biology Biochem 218 – BioMedical Informatics Gene Regulatory.
Genome projects and model organisms Level 3 Molecular Evolution and Bioinformatics Jim Provan.
Genome of the week - Deinococcus radiodurans Highly resistant to DNA damage –Most radiation resistant organism known Multiple genetic elements –2 chromosomes,
ChIP-chip Data, Model and Analysis Ying Nian Wu Dept. Of Statistics UCLA Joint with Ming Zheng, Leah Barrera, Bing Ren.
Mapping protein-DNA interactions by ChIP-seq Zsolt Szilagyi Institute of Biomedicine.
Chapter 14 Genomes and Genomics. Sequencing DNA dideoxy (Sanger) method ddGTP ddATP ddTTP ddCTP 5’TAATGTACG TAATGTAC TAATGTA TAATGT TAATG TAAT TAA TA.
es/by-sa/2.0/. Large Scale Approaches to the Study of Gene Expression Prof:Rui Alves Dept.
Biological Pathways & Networks
Regulatory Genomics Lecture 2 November 2012 Yitzhak (Tzachi) Pilpel 1.
Interactions and more interactions
Protein-protein interactions Courtesy of Sarah Teichmann & Jose B. Pereira-Leal MRC Laboratory of Molecular Biology, Cambridge, UK EMBL-EBI.
Gene expression and DNA microarrays Old methods. New methods based on genome sequence. –DNA Microarrays Reading assignment - handout –Chapter ,
How Do Biologists Study Gene Regulatory Networks? Journal Club 01/27/05, presented by Hong Lan Introduction to technologies Introduction to HNF4  Go over.
Finish up array applications Move on to proteomics Protein microarrays.
Reconstruction of Transcriptional Regulatory Networks
Vidyadhar Karmarkar Genomics and Bioinformatics 414 Life Sciences Building, Huck Institute of Life Sciences.
Proteome and interactome Bioinformatics.
Data Mining the Yeast Genome Expression and Sequence Data Alvis Brazma European Bioinformatics Institute.
Biological Networks & Systems Anne R. Haake Rhys Price Jones.
Analysis of protein-DNA interactions with tiling microarrays
Genome Biology and Biotechnology The next frontier: Systems biology Prof. M. Zabeau Department of Plant Systems Biology Flanders Interuniversity Institute.
Introduction to biological molecular networks
Chapter 11 Opener. Figure 11.1 Potential Points for the Regulation of Gene Expression.
341- INTRODUCTION TO BIOINFORMATICS Overview of the Course Material 1.
Microarray analysis Quantitation of Gene Expression Expression Data to Networks BIO520 BioinformaticsJim Lund Reading: Ch 16.
Two powerful transgenic techniques Addition of genes by nuclear injection Addition of genes by nuclear injection Foreign DNA injected into pronucleus of.
Gene expression and DNA microarrays No lab on Thursday. No class on Tuesday or Thursday next week –NCBI training Monday and Tuesday –Feb. 5 during class.
Biological Networks. Can a biologist fix a radio? Lazebnik, Cancer Cell, 2002.
Network Analysis Goal: to turn a list of genes/proteins/metabolites into a network to capture insights about the biological system 1.Types of high-throughput.
MICROBIOLOGIA GENERALE Prokaryotic genomes. The prokaryotic genome.
1 Bioinformatics. 2 Books: S.B Primrose, RM. Twyman, Principles of Genome analysis and Genomics S.B Primrose, RM. Twyman, Principles of Genome analysis.
Detecting DNA with DNA probes arrays. DNA sequences can be detected by DNA probes and arrays (= collection of microscopic DNA spots attached to a solid.
Comparative Network Analysis BMI/CS 776 Spring 2013 Colin Dewey
MICROBIOLOGIA GENERALE Prokaryotic genomes. The Escherichia coli nucleoid.
Biological networks CS 5263 Bioinformatics.
Control of Gene Expression
A New Map for Navigating the Yeast Epigenome
CSCI2950-C Lecture 13 Network Motifs; Network Integration
Schedule for the Afternoon
Presentation transcript:

Системная биология М.С.Гельфанд Учебно-научный центр «Биоинформатика» Институт проблем передачи информации РАН Международная школа «Биоинформатика, геномика, протеомика» Алма-Ата, Казахстан, апрель 2006

Полные геномы GOLD: 361 полный геном В процессе: 952 бактерий 58 архей 607 эукариот (в т.ч. EST) 46 метагеномов

46 метагеномов “complete” –Sargasso Sea 1600 Мб –Methane-oxidizing archaea from deep sea sediments 111 Мб –Minnesota Soil 100 Мб –Acid mine drainage (AMD) 75 Мб –Woolly mammoth 28 Мб –Whale falls 25 Мб –Antarctic Marine Bacterioplankton 12 Мб –Pleistocene Cave Bears 1 Мб –DOE Hanford Site “incomplete”, но с оценкой размера или опубликованые –Hawaii Ocean Times Series Station (HOT) 2000 Мб –Rice endophyte community 100 Мб –Poplar endophytic bacteria 37 Мб –Alaskan Soil 8 Мб –Pacific Beach Sand 3 Мб –Calyptogena magnifica symbiont 1.2 Мб –Biofilms in drinking-water networks

Метагеномы в другом смысле Escherichia Shigella 6+5 Salmonella 5+18 Staphylococcus 17+9 (aureus 9+5) Streptococcus –S. pyogenes 7+7 –S. pneumoniae ~7+7 Bacillus anthracis+cereus+thuringiensis 7+22 Mycoplasma Chlamydia Chlamydophyla 6+2

Массовые негеномные данные (ко)-экспрессия Белок-ДНКовые взаимодействия Состав и концентрации белков Белок-белковые взаимодействия Одинарные и двойные мутанты (жизнеспособность, фенотипы) Всякие разные эксперименты (text mining) Много баз данных Мало удобных средств анализа

Задачи на ближайшее будущее Что делать с тысячами геномов? Что делать с метагеномами? Как разумно интегрировать разнообразные данные?

Виды чипов (expression arrays) кДНКовые –ПЦР-амплификация известных генов –(можно сколь угодно либерально – брать все сомнительные гены) –Надо учитывать альтернативный сплайсинг, полиаденилирование, промоторы (трудно) –В зависимости от способа приготовления меченой кДНК, можно предпочитать 3’-концы Выстилающие (tiling) –Весь геном – по ~30 нуклеотидов со сдвигом ~10 нуклеотидов… –… за исключением повторов, микросателлитов и т.п.

Типичные задачи классификация измерений (например, диагностика) выбор генов, дифференциально экспрессирующихся в двух классах (диагностика, до/после) поиск групп ко-регулируемых генов

базы данных результатов экспериментов по анализу экспрессии ArrayExpress Stanford Microarray Database GEO (Gene Expression Omnibus) Стандартизованная форма данных об эксперименте (MIAME: Minimal Iinformation About a Microarray Experiment)

Развитие цветка резухи Таля двойная кластериза ция – на генах и на условиях

Plasmodium – цикл развития в эритроците [Bozdech et al., 2003]

белок-белковые взаимодействия комплексы – масс-спектрометрия дрожжевые двугибридные системы –GAL4 –два домена: димеризационный (связывает галактозу) и ДНК-связывающий –димер связывается с оператором –димеризационный и ДНК-связывающий домены могут быть в разных белках (связь через тестируемые белки)

ChIP-chip (chromatin immunoprecipitation) Briefly, cells are fixed with formaldehyde, harvested by sonication, and DNA fragments that are crosslinked to a protein of interest are enriched by immunoprecipitation with a specific antibody. After reversal of the crosslinking, the enriched DNA is amplified and labeled with a fluorescent dye using ligation-mediated PCR (LM-PCR). A sample of DNA that has not been enriched by immunoprecipitation is subjected to LM-PCR in the presence of a different fluorophore, and both IP-enriched and unenriched pools of labeled DNA are hybridized to a single DNA microarray containing all yeast intergenic sequences.DNA microarray containing all yeast intergenic sequences

Что можно делать Частная биоинформатика –Функциональная аннотация –Метаболическая реконструкция –Анализ регуляторных систем Системная биология –Общие свойства систем: графы, сети, … Эволюция –Конкретных метаболических и регуляторных подсистем –Моделирование сетей

Haemophilus influenzae, 1995

Vibrio cholerae, 2000

Систематический анализ генов дрожжей [Kemmeren et al. 2005] Белок-белковые взаимодействия Корреляция профилей экспрессии Ко-локализация Сходство фенотипов

KRE33 “killer toxin resistant”, no GO annotation 20 связанных генов 13: часть комплекса U3 snoRNP (процессинг рРНК) 4: метаболизм мРНК

ASC1 (no annotation) 4 гена – процессинг рРНК 6 факторов инициации трансляции Ydj1 и ZUO1 имеют домены, гомологичные DnaJ (шаперон, работает при тепловом и (другом) шоке), ZUO1 – шаперон, связанный с рибосомой Предсказания: –Ydj1 – шаперон –ASC1 – “a role in stress- induced misfolding” Эксперимент: мутанты по Ydj1 и ASC1 плохо растут при повышенной концентрации NaCl и KCl

Metabolic pathways

STRING server (EMBL – Bork): - positional clustering - fusions - phyletic patterns - co-expression - high-throughput experiments - text mining (Medline abstracts) - databases

Functionally dependent genes tend to cluster on chromosomes in many different organisms

More genomes (stronger links) => highly significant clustering

Особенно в линейных путях (справа)

Распределение уровней связи (бимодальное для изоферментов, монотонное для субъединиц)

Биосинтез ароматических аминокислот Синий: общие метаболиты Зеленый, желтый, красный: связи

Путь синтеза ароматических кислот и его окрестности с точки зрения сравнительной геномики

Метаболизм серосодержащих аминокислот и геномные кластеры. Традиционные пути: Слева и посередине: синтез цистеина Справа: синтез метионина Горизонтальный: one-carbon metabolism (частично)

свойства сетей N = количество вершин распределение степеней вершин P(k) = вероятность того, что у случайно взятой вершины будет k ребер средняя длина пути между вершинами L Коэффициент кластеризации – мера связи между соседями данной вершины

случайная сеть пуассоновское распределение P(k) = exp(-λ) λ k / k! Теорема Эрдеша-Реньи: фазовый переход – возникновение гигантской компоненты средняя длина пути ~ log N

scale-free network P(k) ~ k –γ –γ>3 – ничего особенного –2<γ<3 – hubs, иерархия –γ=2 большой hub, соединенный с большой долей вершин При γ<3 удаление случайной вершины не разрушает сеть, удаление hub’а – разрушает средняя длина пути (при 2<γ<3) ~ log log N

Разные виды графов Распреде- ление степеней вершин Коэффи- циент класте- ризации L.Barabasi

Yeast protein interaction network Data from the high- throughput two-hybrid experiment (T. Ito, et al. PNAS (2001) ) The full set containing 4549 interactions among 3278 yeast proteins 87% nodes in the largest component The highest connected protein interacts with 285 others! Figure shows only nuclear proteins Sergei Maslov’s web site

Гигантская компонента в графе белок- белковых взаимодействий в дрожжах Красный – летальная мутация Оранжевый – медленный рост Желтый – неизвестно Зеленый – нелетальная мутация

Белок-белковые взаимодействия в дрожжах: P(k) и размеры связных компонент

Transcription regulatory network in baker’s yeast Downloaded from the YPD database: 1276 regulations among 682 proteins by 125 transcription factors (10 regulated genes per TF) Part of a bigger genetic regulatory network of 1772 regulations among 908 proteins Positive to negative ratio 3:1 Broader distribution of out-degrees (up to 72) and more narrow of in- degrees (up to 21)

регуляция транскрипции (дрожжи, ChIP-chip) A: in-degree (относительно регулируемых генов): гистограмма (в полулогарифмических координатах) количества промоторов с заданным числом регуляторов– экспоненциальное распределение (у большинства генов мало регуляторов). Пустые кружки – случайный граф В: out-degree (относительно факторов): гистограмма количества факторов, связывающих заданное количество промоторов – scale-free

Transcription regulatory network in Homo Sapiens Data courtesy of Ariadne Genomics obtained from the literature search: 1449 regulations among 689 proteins Positive to negative ratio is 3:1 (again!) Broader distribution of out-degrees (up to 95) and more narrow of in-degrees (up to 40)

Transcription regulatory network in E. coli Data (courtesy of Uri Alon) was curated from the Regulon database: 606 interactions between 424 operons (by 116 TFs) Positive to negative ratio is 3:2 (different from eukaryots!) Broader distribution of out-degrees (up to 85) and more narrow of in-degrees (only up to 6 !)

зависимость физиологических и геномных свойств от топологии дрожжи: –~10% genes with <5 links are essential –>60% genes with >15 links are essential гены с большим числом связей –с большей вероятностью имеют ортологов в многоклеточных эукариотах –ближе к ортологам из C. elegans

Статус гена в геноме PPI – количесто белок- белковых взаимодействий EL – уровень экспрессии KE – летальность нокаутов ER – скорость эволюции PGL – вероятность потери в геноме NP – количество паралогов GI – количество геномных взимодействий Е.В.Кунин

party hubs и date hubs Бимодальное распределение корреляций уровня экспрессии –Красный: hubs –Голубой: non-hubs –Черный: случайный граф Party hubs: сам и соседи ко- экспрессируются (комплексы) Date hub: нет корреляции в уровнях экспрессии (сигнальные пути) Han et al., 2004

Устойчивость к атаке (распадение гигантской компоненты) основа сети – party hubs Красный: атака на party hubs Коричневый: атака на все хабы Голубой: атака на date hubs Зеленый: атака на случайные белки

мотивы клики –много в графах белок-белковых взаимодействий (масс-спек. анализ комплексов – по определению) подграфы фиксированной структуры, встречающиеся существенно чаще, чем в случайном графе (с теми же свойствами)

Регуляторный каскад R – транскрипционная регуляция Х – ко-экспрессия Zhang et al. 2005

R – транскрипционная регуляция Р – белок-белковое взаимодействие Н – гомология

Субъединицы факторов транскрипции R – транскрипционная регуляция Р – белок-белковое взаимодействие Н – гомология

R – транскрипционная регуляция Р – белок-белковое взаимодействие Х – ко-экспрессия Н – гомология

Регулоны R – транскрипционная регуляция Р – белок-белковое взаимодействие Х – ко-экспрессия Н – гомология

Р – белок-белковое взаимодействие Х – ко-экспрессия

Ко-экспрессия в комплексах Р – белок-белковое взаимодействие Х – ко-экспрессия

Почти все “bi- fan” мотивы связаны друг с другом Регуляция транскрипции в E.coli

Сергей Маслов Brookhaven Natl. Lab. Леонид Мирный и Виктор Спирин, MIT … авторы использованных работ РФФИ РАН HHMI LICR