Download presentation
Presentation is loading. Please wait.
Published byAnabel Atkins Modified over 9 years ago
1
Analysis of High-throughput Gene Expression Profiling
2
Why to Measure Gene Expression
1. Determines which genes are induced/repressed in response to a developmental phase or to an environmental change. 2. Sets of genes whose expression rises and falls under the same condition are likely to have a related function. 3. Features such as a common regulatory motif can be detected within co-expressed genes. 4. A pattern of gene expression may be used as an indicator of abnormal cellular regulation. • A useful tool for cancer diagnosis
3
Transitional vs. High-throughput Approaches
Why to Measure Gene Expression in Large Scale? Transitional vs. High-throughput Approaches 高通量表达谱实验技术和传统的基因表达分析技术相比,在效率上有明显优势,已经广泛应用于复杂疾病亚型分型,药物靶点筛选,特征表达谱鉴定等领域。然而,并不是说高通量技术已经可以取代传统的单基因技术,在测量个体基因表达水平高低方面,高通量技术仍有缺欠,Northern杂交技术仍然是基因表达丰度鉴定的金标准。
4
Techniques Used to Detect Gene Expression Level
Microarray (single or dual channel) SAGE EST/cDNA library Northern Blots Subtractive hybridisation Differential hybridisation Representational difference analysis (RDA) DNA/RNA Fingerprinting (RAP-PCR) Differential Display (DD-PCR) aCGH: array CGH (DNA level) High-throughput
5
Basic Information of Microarray, SAGE and cDNA Library
6
(DNA) Microarray 1. Developed around 1987.
2. Employ methods previously exploited in immunoassay context – specific binding and marking techniques. 3. Two types of probes: Format I: probe cDNA (500~5,000 bases long) is immobilized to a solid surface such as glass; widely considered as developed at Stanford University; Traditionally called DNA microarrays. Format II: an array of oligonucleotide (20~80-mer oligos) probes is synthesized either in situ(on-chip) or by conventional synthesis followed by on-chip immobilization; developed at Affymetrix, Inc. Many companies are anufacturing oligonucleotide based chips using alternative in-situ synthesis or depositioning technologies. Historically called DNA chips. 芯片技术是近年来发展势头非常强劲的一门实验技术,无论在genome水平,还是transcriptome和proteome水平,芯片技术都得到应用。本页讲的是DNA芯片。 寡聚核酸芯片是Affy公司原创的,通过原位合成技术制作,对芯片制作工艺技术要求很高,具有分辨率高,均一性好等优点,用于做classification等效果非常好,也很方便于通过统计学进行差异表达基因(DEG)筛选。cDNA芯片是被众多实验室生产自己的芯片所使用的一门技术,因为采用双色标记杂交于同一芯片的技术,因而易于标准化和鉴定DEG。
7
Microarray Single Channel: sub-type classification
Dual Channel: differential expression gene screening Tissue microarray Protein microarray …… 这张讲芯片的主要分类。其中组织芯片是一种逆向思维的产品。其他芯片是点探针,cDNA,或者蛋白抗体到芯片上,再杂交组织,而组织芯片是点组织于芯片,操作正好相反。组织芯片的应用前景应该是非常广阔的。
8
Array CGH Detecting DNA copy variation via microarray approach
A hotspot in recent research works, especially in Cancer research arrayCGH在多年前就有人发明并用于检测肿瘤组织DNA水平的变异。随着芯片技术本身和分析技术的发展,在近几年,arrayCGH又非常火热。CGH,就是比较基因组杂交,是一种实验技术,用于测量疾病基因组相对于正常组织基因组而言有哪些DNA copy 水平的变异,其精确度比较低,(>=~20M)。arrayCGH正是通过芯片技术弥补传统CGH的这一不足。 在研究象肿瘤这样的一些多基因复杂疾病时,人们先注意到肿瘤组织发生大规模DNA变异,然后看到成千上万的基因表达在mRNA水平表达异常,然而,这种表达水平的异常归根到底是在DNA水平决定的,如imprinting, DNA缺失/扩增, 甲基化等等,而且mRNA水平的研究具有不稳定性等缺点,因此现在的焦点好象又回到了DNA,当然也包括蛋白。实际上是一种回归(螺旋式上升的过程,个人观点,:))
9
Microarray Analysis Which genes are up-regulated, down-regulated, co-regulated, not-regulated? gene discovery pattern discovery inferences about biological processes classification of biological processes DNA芯片分析目前主要有三种思路: 1 筛选差异表达基因 2 对于病理学难于区别的疾病类别,通过分子表达谱区分,即亚型分型 3 network分析,研究新的信号通路,新的基因基因相互作用关系 另外,随着全世界各地的相关芯片数据集的堆积,integrated analysis(整合性分析)已经成为一种趋势。
10
SAGE Experimental technique assigned to gain a quantitive measure of gene expression. ~10-20 base “tags” are produced (immediately adjacent to the 3’ end of the 3’ most NlaIII restriction site). The SAGE technique measures not the expression level of a gene, but quantifies a "tag" which represents the transcription product of a gene. SAGE技术实际上是一种设计巧妙的全组织文库基因计数技术,好象是约翰霍普金斯大学的一位大牛发明的。要得到一个特定组织所有基因的表达情况,一种最容易想到的策略就是构建全部基因的mRNA文库,全部测序。然而,这个思路易想难行,很多mRNA的拷贝数成千上万,目前的测序成本还没有降低到可以随便做的地步,因此,对任一组织来说,全部测序的成本很高而效率很低。SAGE技术通过mRNA 3’端一个10-20bp的标签代表一个基因解决了这一难题。从统计学理论上讲,10-20bp已经可以鉴别几万个基因,把所有通过酶切得到的标签再连接测序,然后还原成标签计数,就可以完成前面所说的全组织文库测序的预期目的,而费用和效率自不可同日而语。 SAGE的发明使通过直接测序检测基因表达水平的理想变成现实,相对较于mircroarray技术,SAGE的结果显然更为直接地反映了基因表达情况,然而,SAGE也有它自己的问题,后面我们将具体说明。
11
SAGE Tags are isolated and concatermized.
Relative expression levels can be compared between cells in different states. 右边的图演示了SAGE的基本步骤和原理。
12
SAGEmap (http://cgap.nci.nih.gov)
SAGEmap是NCI(美国国家癌症研究所)提供的一个在线SAGE分析工具,其数据库包含多种正常组织,癌前病变组织和肿瘤组织的SAGE文库。
13
SAGE: comparing two relational libraries
尽管SAGE文库是分别独立构建的,然而人们希望通过比较两个SAGE文库中相同基因的表达值得到该基因的相对表达丰度值,如正常组织和肿瘤组织。
14
EST library (UniGene) 通过EST文库分析基因表达谱的原理类似于SAGE的基本原理,只略有不同。EST(表达序列标签)是从cDNA文库中随机酶切生成的序列,只要EST的量足够多,EST的数量是与其所代表的基因的拷贝数量成正比的。因此,通过特定组织中EST的计数可以测量基因在该组织中的表达丰度值。恰好,EST是所有生物序列中产生速度最快,资源最为丰富的一种。NCBI的Unigene通过megablast及其他辅助聚类算法将EST数据库进行聚类,尽管这种分析结果有不稳定性,但对于研究基因表达谱来讲有一定参考价值。
15
Gene expression info from Unigene Library
Genecard( 是一个收集了基因综合信息的网站,其中包含了基因在常见几种正常组织中的SAGE和Unigene表达丰度。
16
An Example of In-house EST Library Analysis
对EST文库表达谱的分析思路请参见本公司关于cDNA文库分析ppt文件: 对EST文库进行表达谱分析后还可以有很多后续分析,如图是建立全基因组表达图谱。该表达谱实际上类似于按基因物理图谱位置的聚类。可以看到位置相邻的一组基因有共同上调或下调的特性,暗示该区域存在某种共同特征,比如LOH等。 An Example of In-house EST Library Analysis
17
The Algorithms and Challenges of High-throughput Gene Expression Analysis
18
Seeing is believing? No, need to correct errors.
高通量技术给生命科学的实验室技术带来革命性的变化,然而,并不是说所有高通量的实验结果都是有意义的,其中不乏假阳性,假阴性及其它noise。运用统计学和生物信息学结合的手段对这些数据进行去规范化,标准化及去粗取精,去伪存真是必不可少的步骤。
19
SAGE: A typical experiment requires ~30,000 gene expression comparisons where normal and a diseased cell is compared. The results were subject to the size and reliabilities of the SAGE libraries. Statistical measures are used to filter out candidate genes to reduce the dimensionality of the data but it is tedious and time consuming to play with these measures until a good set is found. 如前面所讲,SAGE尽管直接反映了基因表达丰度,但也并非没有缺欠。 SAGE库的容量是一个问题。因为要通过基因标签的计数推算有多少个基因表达,所以SAGE库是包含了全部表达的基因标签当然是很重要的。另外,SAGE库的制作步骤比较多,其中的质量控制也是一个问题,污染严重不严重?测序质量如何?等等都对SAGE的结果可靠与否提出疑问。
20
SAGE TPM: a simple normalization method
TPM=Count*1000,000/TotalCount Bayesian approach 要想比较两个独立的SAGE文库结果,从而得到基因的表达差异情况,首先应使两个SAGE库站在同一条起跑线上,不然,比较结果不可信。比如,某基因在库A中tag计数为2,库B中为1,那么,看起来应该是在B中的表达低于A了,但也许A共含有28000个tag,而B中只有18000个或者更少,那么情况就不那么简单。在标签数不足的SAGE库中,标签计数不直接等于基因的表达数目。因此,比较两个SAGE库时,标准化是有必要的。常见的标准化手段是计算TPM值:把SAGE库按比例扩大到 ,即计算每个标签在库总容量为 时可能的值,然后大家同在这个水平进行比较。 更为精确的算法也有,Anita Lal等提出使用扩展的贝叶式模型计算标签浓度(g(x)公式)以避免随机误差。
21
Microarray: Sources of errors
systematic random log signal intensity 芯片的两种误差来源:系统误差和随机误差。 log RNA abundance
22
Sources of Errors (Cont.)
Printing and/or tip problems Labeling and dye effects (differing amounts of RNA labeled between the 2 channels) Differences in the power of the two lasers (or other scanner problems) Difference in DNA concentration on arrays (plate effects) Spatial biases in ratios across the surface of the microarray due to uneven hybridization cDNA array cannot distinguish alternatively spliced forms 芯片的系统误差也有很多来源: 点样机器人的点样头,两种染料染色不均衡,扫描时两种波长的强度差异,芯片本身探针浓度差异,不同block之间的背景差异,更严重的是,cDNA芯片对可变剪切体没有识别能力。
23
Errors that cannot be corrected by statistics
Competitive hybridization of different targets on the chip Failure to distinguish different splicing forms Misinterpretation of time course data when there are not sufficient points Misinterpretation of relative intensity 有的系统误差是不能通过统计学手段去除的。 如同源基因的竞争性杂交,cDNA芯片对可变剪切体无法识别问题,时间序列芯片如果取点不够,就会得到错误的时间曲线。筛选差异表达基因时,对两种通道相对信号强度的判断有多种方法,以前人们常用直接的信号强度比值,然而取2倍或者3倍为差异表达的域值,但这种方法太过武断而简单,缺乏科学依据,再以后通过以2为底的log ratio值,即M值,然而只看M值容易受数据方差值的影响,也不太科学,现在发展到通过t-statitics计算引进常数来抵消方差的影响,从而使结果更加可信。
24
Does clustered time course really mean co-expression?
Picture taken from Yes, you can study known system (such as cell cycle) this way; but, how about the unknown systems? 对时间系列芯片进行聚类分析可以发现一些共调控的现象。基因在表达趋势方面表现出很强的一致性。如图是有丝分裂周期的芯片聚类分析曲线。 但对于一些未知的循环体系,信号通路等,想构建这样一个完美的曲线是非常困难的。
25
Normalization by iterative linear regression
fit a line (y=mx+b) to the data set set aside outliers (residuals > 2 x s.e.) repeat until r2 changes by < 0.001 then apply slope and intercept to the original dataset 芯片数据标准化手段中,线性回归是其中一种,通过控制cy3-cy5曲线的斜率使cy3,cy5平衡。 D Finkelstein et al.
26
Normalization (Curvilinear)
G Tseng et al., NAR 2001 如图为M-A图 所谓差异表达基因是指远离Y=0这条直线的那些基因。而大部分基因应该是围绕在Y=0左右,即非差异表达基因。 M表示了cy5对cy3的相对强度。 A表示了信号平均强度。 通过标准化使fit line趋于y=0。
27
After Normalization ……
Differentially Expressed (DE) Gene screeing T-test T-statistics SVM Clustering Hierarchical SOM K-means Network (Pathway) analysis BioCarta, KEGG, GO databases Bayesian network learning Topology … 标准化之后的数据处理往往成为生物学家的难题。聚类分析是最常见的处理方法,结合GO的基因注释也成为了一种常规分析。然而,再往后呢?
28
Bioinformatics challenges
1. data management 2. utilizing data from multiple experiments 3. utilizing data from multiple groups * with different technologies * with only processed data available 整合性分析显然是一个挑战,不同芯片的probe不一致,不同软件读取信号图的格式不一致,好在现在基本有两种规范的格式Scanlyze和GenePix格式。把各种不同种类,不同格式的数据整合起来一起分析,仍然是工作量很大的一件事,更不用说建立全自动化数据库整合标准体系了。
29
Bioinformatics Analysis of Integrated Analysis of Gene Expression Profiling
介绍两个整合分析思路。
30
Q values (estimated false discovery rates) were calculated as
Large-scale meta-analysis of cancer microarray data identifies common transcriptional profiles of neoplastic transformation and progression Daniel R. et al. PNAS, 2004(101), T-test Q values (estimated false discovery rates) were calculated as where P is P value, n is the total number of genes, and i is the sorted rank of P value. Meta-analysis of cancer microarray datasets 试图通过整合性算法将几十个cancer相关的芯片数据统一起来,发现对肿瘤发生发展起共同作用的重要基因
31
Cont. Meta-Profiling. The purpose of meta-profiling is to address the hypothesis that a selected set of differential expression signatures shares a significant intersection of genes (a meta-signature), thus inferring a biological relatedness.
32
67 genes were screened by mata-analysis
筛选出67个ranking靠前的基因。这些基因可能是多种肿瘤发生发展过程中的共同关键基因。
33
Integrated Cancer Gene Expression Map
这是另一种整合分析,global profiling of genome (LOH,CGH,arrayCGH), transcriptome (microarray, SAGE, EST library) and proteome (ELISA, antibody chip)。本工作及分析思路为与翔公司原创。
34
7 genes were discovered by the system
通过这种分析体系筛选出7个重要相关基因来。
35
THANX!! 感谢大家有耐心看到这里! 现在事情繁多,时间仓促,必然存在不少问题,请大家指正。
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.