Download presentation
Presentation is loading. Please wait.
1
东南大学 吴健雄实验室
2
第三节 序列多重比对
3
目的: 发现多个序列的共性 发现与结构和功能相关的保守序列片段 设:有 k 个序列 s 1, s 2,...,s k ,每个序列由同一个 字母表中的字符组成, k 大于 2 。 通过插入操作,使得各序列达到一样的长度。
4
1 、 SP ( Sum-of-Pairs )模型 评价多重序列比对的结果
5
按照每个对比的列进行打分,然后加和 处理每一列: — k 个变量的打分函数 — 用一个 k 维数组来表示该显式函数(类似于打分矩阵) 期望: 函数在形式上应该简单 具有统一的形式 不随序列的个数而发生形式变化
6
其中, c 1,c 2,…,c k 是一列中的 k 个字符, p 是关于一对字符相似性的打分函数。 逐对加和 SP ( sum-of-pairs )函数 逐对计算 p(1,2) , p (1,3) ,... , p(1,8) , p (2,3) , p(2,4) ,... , p (2,8) ,... , p (7,8) 的所有得 分 ( -7-6-5-4-3-2-1 ) +2 = -26
7
另一种计算方式:先处理每一个序列对 在处理序列对时,逐个计算字符对,最后加和 则 SP 得分模型的计算公式如下: 是一个多重比对 ij 是由 推演出来的序列 s i 和 s j 的两两比对
9
2 、多重比对的动态规划算法 多重序列比对的最终目标是通过处理得到一个得分最 高(或代价最小)的序列对比排列,从而分析各序列之 间的相似性和差异。
10
前趋节点的个数等于 2 k - 1
11
假设以 k 维数组 A 存放超晶格,则计算过程如下: a[ 0, 0, …,0 ] = 0 a[ i ] = max {a[ i - b ] + SP-score(Column(s, i, b))} (3-37) (3-38) if b j = 1 if b j = 0
12
图 3.17 三维晶格节点计算依赖关系 问题: 计算量巨大 时间复杂度为 O(2 k i=1,...,k s i ) ↓ O(2 k N k )
13
3 、 优化计算方法 标准动态规划算法存在的问题: 搜索空间大 剪枝技术:将搜索空间限定在一个较小的区域范 围内。 若问题是搜索一条得分最高(或代价最小)的路 径,则在搜索时如果当前路径的得分低于某个下 限(或累积代价已经超过某个上限),则对当前 路径进行剪枝,即不再搜索当前路径的后续空间。
14
经过特定断点的最优比对算法: 设有两条序列 s 、 t ,已知它们的两个断点分别是 i 、 j 经过特定断点( i 、 j )的最优比对可分为两个部分: —— 0 :s: i 与 0 :t: j 的最优比对 —— i :s: m 与 j :t: n 的最优比对 序列 S: 序列 t: j i
15
为了得到特定断点的最优比对,用两个矩阵 A 和 B a[i, j] = sim( 0 :s: i, 0 :t: j ) b[i, j] = sim( i :s: m, j :t: n ) 矩阵 A 的计算和标准算法一样 矩阵 B 的计算则是反方向的,即先对 B 的最后一行和最后一列 进行初始化,然后反向推进到( 0 , 0 )。 矩阵 A 与 B 的和 C=A+B 包含了在特定断点( i 、 j )的最优比对 得分。称 C 矩阵为总得分矩阵,而 A 、 B 分别是前缀和后缀的得 分矩阵。 根据 C 的最大值,可非常容易地找出最优比对所对应的路径。
16
-ATTCGG GATTC-- ( c ) 图 ( a )前缀矩阵;( b )总得分矩阵;( c )最优比对 (a)(a)(b)(b)
17
定理 3-1 :设 是关于 s 1, s 2,...,s k 的最优比对,如果 SP-score( ) L ,则 score( ij ) L ij 其中 L ij = L - ( sim(s x, s y ) ) x<y,(x,y) (i,j) 分析一个节点是否处于可能最有路径上 即判断一个节点是否是相关的 判断依据: C=A+B 元素的值 超晶格中的一个节点 i = (i 1, i 2, …, i k ) 如果对于所有的 1 x < y k , i 满足 c xy [i x, i y ] L xy 则 i 是相关的
18
4 、星形比对 星形比对的基本思想是:在给定的若干序列中,选择一 个核心序列,通过该序列与其它序列的两两比对形成所 有序列的多重比对 ,从而使得 在核心序列和任何一 个其它序列方向的投影是最优的两两比对。 利用标准的动态规划方法求出所有 s i 和 s c 的最优两两比 对 时间为 O ( kn 2 ) 将这些两两比对聚集起来 并采用 “ 只要是空白, 则永远是空白 ” 的原则。
19
scs1s2…skscs1s2…sk (s c, s 1 ) (s c, s 2 ) … (s c, s k ) 两两比对 多重比对
20
如何选择核心序列? 尝试将每一个序列分别作为核心序列,进行星形 多重序列比对,取比对结果最好的一个。 另一种方法是计算所有的两两比对,取下式值最 大的一个: sim( s i, s c )
21
例如,有 5 个序列: s 1 = ATTGCCATT s 2 = ATGGCCATT s 3 = ATCCAATTTT s 4 = ATCTTCTT s 5 = ACTGACC s c =s 1 ATTGCCATT ATTGCCATT-- ATTGCCATT ATTGCCATT ATGGCCATT ATC-CAATTTT ATCTTC-TT ACTGACC-- ATTGCCATT-- ATGGCCATT-- ATC-CAATTTT ATCTTC-TT-- ACTGACC----
22
引理 3.1 : 对于所有的 1≤i , j≤k ,,i j, 有 d c (s i, s j ) ≤ D(s i, s c ) + D(s c, s j ) ( 3-43 ) 定理 3.2 ( 3-44 ) 星形比对是一种近似的方法,可以证明,用该方法 所得到多重序列比对的代价不会大于最优多重序列比 对代价的两倍
23
5 、树形比对 k 个待比对的序列 → 具有 k 个叶节点的树 每个叶节点对应一个序列 将序列赋予树的内部节点,可以计算树中每个分支的权值。 权值代表对应分支连接的两个序列之间的相似性。 所有权值的和就是这棵树 寻找一种树的内部节点序列赋予方式,使得树的得分最大。
24
将 CT 、 CG 、 CT 分别赋予节点 x 、 y 、 z ,则树的得分为 8 。 这里假设如果 a=b ,则 p(a,b)=1 , 否则 p(a,b)=0 , p(a,-)=-1 。 CTCG CT 多重序列比对 → 两两序列比对 → 合并两个比对(比对的比对)
25
Alignment of alignments, AA 算法 假设 :有两个多重序列比对 1 、 2 , 1 代表序列 s1 、 s2 、 … 、 si 的多重比对, 2 代表序列 t1 、 t2 、 … 、 tj 的多重比对, ( s1 , s2 , … , si ) ( t1 , t2 , … , tj ) = 代表 s1 和 t1 的两两比对,则计算与 相一致的 1 和 2 比对的算法如下 : ( 1 )标定 1 的各列,如果 s1 在比对中对应位置的编辑操作不 是插入或删除,则这些列分别标记为 s1 对应位置上的字符 a 1 、 a 2 、 … 、 a ls1 ( ls1 为序列 s1 的长度); ( 2 )标定 2 的各列,如果 t1 在比对中对应的位置编辑操作不 是插入或删除,则这些列分别标记为 t1 对应位置上的字符 b 1 、 b 2 、 … 、 b lt1 ( lt1 为序列 t1 的长度); ( 3 )对 a 1 、 a 2 、 … 、 a ls1 和 b 1 、 b 2 、 … 、 b lt1 进行比对; ( 4 )在所得到的比对中,对于 1 、 2 和 中原来有插入或删 除操作的位置,恢复其原有的实际字符或空位字符 “-” 。
26
例: 1: s1 -H-LVV 2: t1 L-HCLV : s1 -H-LVV s2 G-VLVC t2 VLHCL- t1 LHCLV- s3 GN-LVV AA 算法的输出为 --H--LVV -G--VLVG -GN--LVV L-HC-LV- V-HC-L— 分别对第 1 、 2 列和 4 、 5 列进行压缩,则最后结果为 —H—LVV G—VLVG GN—LVV LHCLV- VHCL--
27
对于 n 个序列的树形比对的基本算法过程如下: ( 1 )初始化,对于每个序列,生成一个叶节点 ( 2 )利用 AA 算法合并两个节点,形成一个新节 点,合并的结果放在新节点中,原来的两 个节点作为新节点的子节点 ( 3 )反复执行( 2 ),直到形成 n 个叶节点的树 根为止,根节点中的序列即为最终的多重 比对结果。 s1 s2 s3 s4 α1α1 α2α2 α
28
6 、其它多重序列比对算法 一般渐进式比对方法所采用的过程: ( 1 )先将多个序列进行两两比对,基于这些比较, 计算得到一个距离矩阵,该矩阵反映每对序列的 关系; ( 2 ) 利用距离矩阵,建立一棵 “ 相关树 ” ; ( 3 )从最接近的一对序列出发,逐步归并形成比 对的聚类,直到所有序列处理完。
29
例: ((LYCES, SPIOL 84), (YEAST, (XENLA, (((RAT, MOUSE 96), HUMAN 83), CHICK 71) 66), DROVI 58))
30
相关树
31
多序列比对
32
目前使用最广泛的多重序列比对程序是 ClustalW ClustalW 是一种渐进的比对方法,先将多个序列 进行两两比对,基于这些比较,计算得到一个距 离矩阵,该矩阵反映了每对序列的关系 EBI 的 CLUSTALW 网址是: http://www.ebi.ac.uk/clustalw/
34
7 、统计特征分析 对于所得到的多重序列比对,我们往往需要进行归纳分析, 总结这些序列的特征,或者给出这些序列共性的表示 —H—LVV G—VLVG GN—LVV LHCLV- VHCL-- ( 1 )保守序列 表示序列每个位置上最可能出现的字符(或者所有可能出 现的字符) ATNTSC (N - A,T,C,G ; S - G,C)
35
( 2 )特征统计图( Profile ) 令 P=(P 1,P 2,…,P L ) , P 表示在 的每一列上 各种字符出现的概率分布 P j =(p j0,p j1,…, pj|A| ) A 代表字母表, P jk 代表字母表 A 中第 k 个字符在第 j 列出现的概率。 第 0 个字符是特殊的空位符号 “-” 。
36
ATTAT AACTT CTTAT ACTTT AGAAT 1 2 3 4 5 ( 位置 ) A 0.8 0.2 0.2 0.6 0.0 T 0.0 0.4 0.6 0.4 1.0 C 0.2 0.2 0.2 0.0 0.0 G 0.0 0.2 0.0 0.0 0.0 (碱基)
37
利用保守序列或者特征统计图可以判断一个序列是否满足 一定的特征 给定一个序列 s=a 1 a 2 …a m ,定义字符 a 在第 j 位的代价为 其中, |A| 代表字母表 A 的长度, A k 代表 A 的第 k 个字符,特 别地 A 0 代表空缺字符 “-” 。整个序列 s 的代价为 一条序列与特征统计图相对照,如果代价值小,说明该序 列具有相应的特征,否则该序列不具备相应的特征。
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.