东南大学 吴健雄实验室. 第三节 序列多重比对 目的: 发现多个序列的共性 发现与结构和功能相关的保守序列片段 设:有 k 个序列 s 1, s 2,...,s k ,每个序列由同一个 字母表中的字符组成, k 大于 2 。 通过插入操作,使得各序列达到一样的长度。

Slides:



Advertisements
Similar presentations
第十二章 常微分方程 返回. 一、主要内容 基本概念 一阶方程 类 型 1. 直接积分法 2. 可分离变量 3. 齐次方程 4. 可化为齐次 方程 5. 全微分方程 6. 线性方程 类 型 1. 直接积分法 2. 可分离变量 3. 齐次方程 4. 可化为齐次 方程 5. 全微分方程 6. 线性方程.
Advertisements

概率统计( ZYH ) 节目录 2.1 随机变量与分布函数 2.2 离散型随机变量的概率分布 2.3 连续型随机变量的概率分布 第二章 随机变量及其分布.
概率统计( ZYH ) 节目录 3.1 二维随机变量的概率分布 3.2 边缘分布 3.4 随机变量的独立性 第三章 随机向量及其分布 3.3 条件分布.
位置相关查询处理 研究背景及意义 移动计算、无线通信以及定位技术的快速发展,使 得位置相关的查询处理及基于位置的信息服务技术 已经成为一个热点研究领域 。 大量的应用领域 ( 如地理信息系统、智能导航、交 通管制、天气预报、军事、移动电子商务等 ) 均迫 切需要有效地查询这些数据对象。
细分曲面 傅孝明 SA 目录 细分曲面的基本思想 两个关键问题 一些基本概念 几种简单的细分曲面算法 细分曲面方法分类.
一、拟合优度检验 二、变量的显著性检验 三、参数的置信区间
4 第四章 矩阵 学时:  18 学时。 教学手段:  讲授和讨论相结合,学生课堂练习,演练习题与辅导答疑相结合。 基本内容和教学目的:  基本内容: 矩阵的运算,可逆矩阵,初等矩阵及其性质和意义, 分块矩阵。  教学目的:  1 .使学生理解和掌握矩阵等价的相关理论  2 .能熟练地进行矩阵的各种运算.
第二十三讲 7.3 利用频率采样法设计 FIR 滤波器. 回顾窗函数设计法: 得到的启发:能否在频域逼近? 用什么方法逼近? 通过加窗实 现时域逼近.
主要内容  LR(0) 分析. 0 S→  E # E→  E+T E→  T T→  id T→  ( E ) 1 S→E  # E→E  +T 5 T→id  3 E→E+  T T→  id T→  (E) 4 E→E+T  9 E→T  6 T→(  E) E→
嵌入式操作系统 陈香兰 Fall 系统调用 10/27/09 嵌入式 OS 3/12 系统调用的意义  操作系统为用户态进程与硬件设备进行交互提供 了一组接口 —— 系统调用  把用户从底层的硬件编程中解放出来  极大的提高了系统的安全性  使用户程序具有可移植性.
第 4 章 抽象解释 内容概述 以一种独立于编程语言的方式,介绍抽象解释的 一些本质概念 – 将 “ 程序分析对语言语义是正确的 ” 这个概念公式 化 – 用 “ 加宽和收缩技术 ” 来获得最小不动点的较好的 近似,并使所需计算步数得到限制 – 用 “ 伽罗瓦连接和伽罗瓦插入 ” 来把代价较大的属 性空间用代价较小的属性空间来代替.
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第六十二讲 ) 离散数学. 最后,我们构造能识别 A 的 Kleene 闭包 A* 的自动机 M A* =(S A* , I , f A* , s A* , F A* ) , 令 S A* 包括所有的 S A 的状态以及一个 附加的状态 s.
2.1 结构上的作用 作用及作用效应 作用的分类 荷载分类及荷载代表值.
1 为了更好的揭示随机现象的规律性并 利用数学工具描述其规律, 有必要引入随 机变量来描述随机试验的不同结果 例 电话总机某段时间内接到的电话次数, 可用一个变量 X 来描述 例 检测一件产品可能出现的两个结果, 也可以用一个变量来描述 第五章 随机变量及其分布函数.
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 3 章 曲线拟合的最小二乘法 给出一组离散点,确定一个函数逼近原函数,插值是这样 的一种手段。在实际中,数据不可避免的会有误差,插值函 数会将这些误差也包括在内。
主讲教师:陈殿友 总课时: 124 第八讲 函数的极限. 第一章 机动 目录 上页 下页 返回 结束 § 3 函数的极限 在上一节我们学习数列的极限,数列 {x n } 可看作自变量 为 n 的函数: x n =f(n),n ∈ N +, 所以,数列 {x n } 的极限为 a, 就是 当自变量 n.
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第三十八讲 ) 离散数学. 第八章 格与布尔代数 §8.1 引 言 在第一章中我们介绍了关于集 合的理论。如果将 ρ ( S )看做 是集合 S 的所有子集组成的集合, 于是, ρ ( S )中两个集合的并 集 A ∪ B ,两个集合的交集.
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第四十八讲 ) 离散数学. 例 设 S 是一个非空集合, ρ ( s )是 S 的幂集合。 不难证明 :(ρ(S),∩, ∪,ˉ, ,S) 是一个布尔代数。 其中: A∩B 表示 A , B 的交集; A ∪ B 表示 A ,
第十一章 曲线回归 第一节 曲线的类型与特点 第二节 曲线方程的配置 第三节 多项式回归.
实验一: 信号、 系统及系统响应 1 、实验目的 1 熟悉连续信号经理想采样前后的频谱变化关系, 加深对时 域采样定理的理解。 2 熟悉时域离散系统的时域特性。 3 利用卷积方法观察分析系统的时域特性。 4 掌握序列傅里叶变换的计算机实现方法, 利用序列的傅里 叶变换对连续信号、 离散信号及系统响应进行频域分析。
线性代数习题课 吉林大学 术洪亮 第一讲 行 列 式 前面我们已经学习了关 于行列式的概念和一些基本 理论,其主要内容可概括为:
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第二十五讲 ) 离散数学. 定理 群定义中的条件 ( 1 )和( 2 )可以减弱如下: ( 1 ) ’ G 中有一个元素左壹适合 1 · a=a; ( 2 ) ’ 对于任意 a ,有一个元素左逆 a -1 适 合 a -1 ·
第二章 随机变量及其分布 第一节 随机变量及其分布函数 一、随机变量 用数量来表示试验的基本事件 定义 1 设试验 的基本空间为 , ,如果对试验 的每一个基 本事件 ,规定一个实数记作 与之对应,这样就得到一个定义在基本空 间 上的一个单值实函数 ,称变量 为随机变量. 随机变量常用字母 、 、 等表示.或用.
第 4 章 过程与变量的作用范围. 4.1 Visual Basic 的代码模块 Visual Basic 的应用程序是由过程组成的, 过程代码存放在模块中。 Visual Basic 提供了 三类模块,它们是窗体模块、标准模块和类 模块。 窗体模块 窗体模块是大多数 Visual Basic.
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 3 章 曲线拟合的最小二乘法 给出一组离散点,确定一个函数逼近原函数,插值是这样的一种手段。 在实际中,数据不可避免的会有误差,插值函数会将这些误差也包括在内。
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第三十九讲 ) 离散数学. 例 设 S 是一个集合, ρ ( S )是 S 的幂集合,集合 的交( ∩ ),并(∪)是 ρ ( S )上的两个代数运算, 于是,( ρ ( S ), ∩ ,∪) 是一个格。而由例 知.
实验三: 用双线性变换法设计 IIR 数字滤波器 一、实验目的 1 熟悉用双线性变换法设计 IIR 数字滤波器的原理与方法。 2 掌握数字滤波器的计算机仿真方法。 3 通过观察对实际心电图信号的滤波作用, 获得数字滤波的感性知 识。
第二章 贝叶斯决策理论 3学时.
流态化 概述 一、固体流态化:颗粒物料与流动的流体接触,使颗粒物料呈类 似于流体的状态。 二、流态化技术的应用:流化催化裂化、吸附、干燥、冷凝等。 三、流态化技术的优点:连续化操作;温度均匀,易调节和维持; 气、固间传质、传热速率高等。 四、本章基本内容: 1. 流态化基本概念 2. 流体力学特性 3.
非均相物系的分离 沉降速度 球形颗粒的 :一、自由沉降 二、沉降速度的计算 三、直径计算 1. 试差法 2. 摩擦数群法 四、非球形颗粒的自由沉降 1. 当量直径 de :与颗粒体积相等的圆球直径 V P — 颗粒的实际体积 2. 球形度  s : S—— 与颗粒实际体积相等的球形表面积.
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 4 章 非线性方程求根 非线性科学是当今科学发展的一个重要研究方向,而非线性 方程的求根也成了一个不可缺的内容。但是,非线性方程的求根 非常复杂。
量子化学 第四章 角动量与自旋 (Angular momentum and spin) 4.1 动量算符 4.2 角动量阶梯算符方法
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 5 章 解线性方程组的直接法 实际中,存在大量的解线性方程组的问题。很多数值方 法到最后也会涉及到线性方程组的求解问题:如样条插值的 M 和.
主讲教师:陈殿友 总课时: 124 第十一讲 极限的运算法则. 第一章 二、 极限的四则运算法则 三、 复合函数的极限运算法则 一 、无穷小运算法则 机动 目录 上页 下页 返回 结束 §5 极限运算法则.
在发明中学习 线性代数 概念的引入 李尚志 中国科学技术大学. 随风潜入夜 : 知识的引入 之一、线性方程组的解法 加减消去法  方程的线性组合  原方程组的解是新方程的解 是否有 “ 增根 ” ?  互为线性组合 : 等价变形  初等变换  高斯消去法.
东南大学计算中心 网站应用与实践 主讲人 吴俊. 2 东南大学计算中心 网站制作流程  确定主题、风格  规划栏目、收集素材  版面设计、配色  编辑页面  测试发布 FrontPage 要完成的任务.
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 7 章 矩阵的特征值和特征向量 很多工程计算中,会遇到特征值和特征向量的计算,如: 机械、结构或电磁振动中的固有值问题;物理学中的各种临界 值等。这些特征值的计算往往意义重大。
Photoshop CS4 标准培训教程 第三章第三章 在 Photoshop CS4 中所谓的不规则选区指的是随意性强,不被局限在几何形状内, 他们可以是鼠标任意创建的也可以是通过计算而得到的单个选区或多个选区。在 Photoshop 中可以用来创建不规则选区的工具被分组放置到套索工具组、魔棒工具组.
§2.2 一元线性回归模型的参数估计 一、一元线性回归模型的基本假设 二、参数的普通最小二乘估计( OLS ) 三、参数估计的最大或然法 (ML) 四、最小二乘估计量的性质 五、参数估计量的概率分布及随机干 扰项方差的估计.
第一节 相图基本知识 1 三元相图的主要特点 (1)是立体图形,主要由曲面构成; (2)可发生四相平衡转变; (3)一、二、三相区为一空间。
9的乘法口诀 1 .把口诀说完全。 二八( ) 四六( ) 五八( ) 六八( ) 三七( ) 三八( ) 六七( ) 五七( ) 五六( ) 十六 四十八 四十二 二十四 二十一 三十五 四十 二十四 三十 2 .口算, 并说出用的是哪句口诀。 8×8= 4×6= 7×5= 6×8= 5×8=
量子力学教程 ( 第二版 ) 3.4 连 续 谱 本 征 函 数 的 归 一 化 连续谱本征函数是不能归一化的 一维粒子的动量本征值为的本征函数 ( 平面波 ) 为 可以取 中连续变化的一切实数值. 不难看出,只要则 在量子力学中, 坐标和动量的取值是连续变化 的 ; 角动量的取值是离散的.
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第五十三讲 ) 离散数学. 定义 设 G= ( V , T , S , P ) 是一个语法结构,由 G 产生的语言 (或者说 G 的语言)是由初始状态 S 演绎出来的所有终止符的集合, 记为 L ( G ) ={w  T *
编译原理总结. 基本概念  编译器 、解释器  编译过程 、各过程的功能  编译器在程序执行过程中的作用  编译器的实现途径.
周期信号的傅里叶变换. 典型非周期信号 ( 如指数信号, 矩形信号等 ) 都是满足绝对可 积(或绝对可和)条件的能量信号,其傅里叶变换都存在, 但绝对可积(或绝对可和)条件仅是充分条件, 而不是必 要条件。引入了广义函数的概念,在允许傅里叶变换采用 冲激函数的前提下, 使许多并不满足绝对可积条件的功率.
 符号表  标识符的作用: 声明部分:定义了各种对象及对应的属性和 使用规则。 程序体:对所定义的对象进行各种操作。 $ididname IdnameAttributeIR  必要性 Token : 新表-符号表(种类、类型等信息):
第六章 系统发生分析 主讲人:孙 啸 制作人:刘志华 东南大学 吴健雄实验室.
Department of Mathematics 第二章 解析函数 第一节 解析函数的概念 与 C-R 条件 第二节 初等解析函数 第三节 初等多值函数.
模式识别 – 成分分析与核函数 第八章 成分分析与核函数. 模式识别 – 成分分析与核函数 8.0 问题的提出 降低特征维数 : Dimension Reduction  提高泛化能力:减少模型的参数数量;  减少计算量: 主要方法: 1. 主成分分析 (PCA): Principle Component.
1-4 节习题课 山东省淄博第一中学 物理组 阚方海. 2 、位移公式: 1 、速度公式: v = v 0 +at 匀变速直线运动规律: 4 、平均速度: 匀变速直线运动 矢量式 要规定正方向 统一单位 五个量知道了三 个量,就能求出 其余两个量 3 、位移与速度关系:
《 UML 分析与设计》 交互概述图 授课人:唐一韬. 知 识 图 谱知 识 图 谱知 识 图 谱知 识 图 谱.
1 、如果 x + 5 > 4 ,那么两边都 可得 x >- 1 2 、在- 3y >- 4 的两边都乘以 7 可得 3 、在不等式 — x≤5 的两边都乘以- 1 可得 4 、将- 7x — 6 < 8 移项可得 。 5 、将 5 + a >- 2 a 移项可得 。 6 、将- 8x < 0.
项目七: PLC 功能指令应用 带进位循环左移指令 XXXXX. 项目七: PLC 功能指令应用 FX2 系列可编程控制器移位控制指令有移位、循环移位、字移位 及先进先出 FIFO 指令等 10 条指令。 带进位循环右移指令 RCR 带进位循环左移指令 RCL 字右移位指令 WSFR 先入先出读出指令.
§10.2 对偶空间 一、对偶空间与对偶基 二、对偶空间的有关结果 三、例题讲析.
请同学们仔细观察下列两幅图有什么共同特点? 如果两个图形不仅形状相同,而且每组对应点所在的直线 都经过同一点, 那么这样的两个图形叫做位似图形, 这个点叫做位 似中心.
表单自定义 “ 表单自定义 ” 功能是用于制作表单的 工具,用数飞 OA 提供的表单自定义 功能能够快速制作出内容丰富、格 式规范、美观的表单。
综合性问题 距离和角度的度量 画法几何及机械制图 精品资源共享课 换面法应用 工程图学教研室. 工程实际抽象出来的几何问题,如距离、角度的度量;点、线、面 的定位等,并不是单纯的平行、相交、垂直问题,而多是较复杂的综 合问题,其突出特点是要受若干条件的限制,求解时往往要同时满足 几个条件。 解决此类问题的方法通常是:分析、确定解题方案及投影图上实.
7 生产费用在完工产品与在产 品之间分配的核算. 2 第七章 生产费用在完工产品与在产品之 间的分配  知识点 :  理解在产品的概念  掌握生产费用在完工产品与在产品之间的分 配.
力的合成 力的合成 一、力的合成 二、力的平行四边形 上一页下一页 目 录 退 出. 一、力的合成 O. O. 1. 合力与分力 我们常常用 一个力来代替几个力。如果这个 力单独作用在物体上的效果与原 来几个力共同作用在物体上的效 果完全一样,那么,这一个力就 叫做那几个力的合力,而那几个 力就是这个力的分力。
第四章 不定积分. 二、 第二类换元积分法 一、 第一类换元积分法 4.2 换元积分法 第二类换元法 第一类换元法 基本思路 设 可导, 则有.
逻辑设计基础 1 第 7 章 多级与(或)非门电路 逻辑设计基础 多级门电路.
八. 真核生物的转录 ㈠ 特点 ① 转录单元为单顺反子( single cistron ),每 个蛋白质基因都有自身的启动子,从而造成在功能 上相关而又独立的基因之间具有更复杂的调控系统。 ② RNA 聚合酶的高度分工,由 3 种不同的酶催化转 录不同的 RNA 。 ③ 需要基本转录因子与转录调控因子的参与,这.
一、 版 面 构 成 的 概 念 版 面 构 成 的 概 念 二、 版 面 构 成 的 发 展 趋 势 版 面 构 成 的 发 展 趋 势 三、 广 告 文 字 的 版 面 构 成 广 告 文 字 的 版 面 构 成 四、 广 告 版 面 的 视 觉 流 程 广 告 版 面 的 视 觉 流 程.
人 有 悲 欢 离 合, 月有阴晴圆缺。月有阴晴圆缺。 华师大版七年级数学第二册 海口市第十中学 数学组 吴锐.
§5.6 利用希尔伯特 (Hilbert) 变换 研究系统的约束特性 希尔伯特变换的引入 可实现系统的网络函数与希尔伯特变换.
欢 迎 使 用 《工程流体力学》 多媒体授课系统 燕 山 大 学 《工程流体力学》课程组. 第九章 缝隙流动 概述 9.1 两固定平板间的层流流动 9.2 具有相对运动的两平行平板 间的缝隙流动 9.3 环形缝隙中的层流流动.
1 第三章 数列 数列的概念 考点 搜索 ●数列的概念 ●数列通项公式的求解方法 ●用函数的观点理解数列 高考 猜想 以递推数列、新情境下的 数列为载体, 重点考查数列的通 项及性质, 是近年来高考的热点, 也是考题难点之所在.
目录 上页 下页 返回 结束 二、无界函数反常积分的审敛法 * 第五节 反常积分 无穷限的反常积分 无界函数的反常积分 一、无穷限反常积分的审敛法 反常积分的审敛法  函数 第五章 第五章.
本章讨论有限自由度结构系统,在给定载荷和初始条件激励下的系统动力响应计算方法。 第 六 章
§7.2 估计量的评价标准 上一节我们看到,对于总体 X 的同一个 未知参数,由于采用的估计方法不同,可 能会产生多个不同的估计量.这就提出一 个问题,当总体的一个参数存在不同的估 计量时,究竟采用哪一个好呢?或者说怎 样评价一个估计量的统计性能呢?下面给 出几个常用的评价准则. 一.无偏性.
Presentation transcript:

东南大学 吴健雄实验室

第三节 序列多重比对

目的: 发现多个序列的共性 发现与结构和功能相关的保守序列片段 设:有 k 个序列 s 1, s 2,...,s k ,每个序列由同一个 字母表中的字符组成, k 大于 2 。 通过插入操作,使得各序列达到一样的长度。

1 、 SP ( Sum-of-Pairs )模型 评价多重序列比对的结果

按照每个对比的列进行打分,然后加和 处理每一列: — k 个变量的打分函数 — 用一个 k 维数组来表示该显式函数(类似于打分矩阵) 期望: 函数在形式上应该简单 具有统一的形式 不随序列的个数而发生形式变化

其中, c 1,c 2,…,c k 是一列中的 k 个字符, p 是关于一对字符相似性的打分函数。 逐对加和 SP ( sum-of-pairs )函数 逐对计算 p(1,2) , p (1,3) ,... , p(1,8) , p (2,3) , p(2,4) ,... , p (2,8) ,... , p (7,8) 的所有得 分 ( ) +2 = -26

另一种计算方式:先处理每一个序列对 在处理序列对时,逐个计算字符对,最后加和 则 SP 得分模型的计算公式如下:  是一个多重比对  ij 是由  推演出来的序列 s i 和 s j 的两两比对

2 、多重比对的动态规划算法 多重序列比对的最终目标是通过处理得到一个得分最 高(或代价最小)的序列对比排列,从而分析各序列之 间的相似性和差异。

前趋节点的个数等于 2 k - 1

假设以 k 维数组 A 存放超晶格,则计算过程如下: a[ 0, 0, …,0 ] = 0 a[ i ] = max {a[ i - b ] + SP-score(Column(s, i, b))} (3-37) (3-38) if b j = 1 if b j = 0

图 3.17 三维晶格节点计算依赖关系 问题: 计算量巨大 时间复杂度为 O(2 k  i=1,...,k  s i  ) ↓ O(2 k N k )

3 、 优化计算方法 标准动态规划算法存在的问题: 搜索空间大 剪枝技术:将搜索空间限定在一个较小的区域范 围内。 若问题是搜索一条得分最高(或代价最小)的路 径,则在搜索时如果当前路径的得分低于某个下 限(或累积代价已经超过某个上限),则对当前 路径进行剪枝,即不再搜索当前路径的后续空间。

经过特定断点的最优比对算法: 设有两条序列 s 、 t ,已知它们的两个断点分别是 i 、 j 经过特定断点( i 、 j )的最优比对可分为两个部分: —— 0 :s: i 与 0 :t: j 的最优比对 —— i :s: m 与 j :t: n 的最优比对 序列 S: 序列 t: j i

为了得到特定断点的最优比对,用两个矩阵 A 和 B a[i, j] = sim( 0 :s: i, 0 :t: j ) b[i, j] = sim( i :s: m, j :t: n ) 矩阵 A 的计算和标准算法一样 矩阵 B 的计算则是反方向的,即先对 B 的最后一行和最后一列 进行初始化,然后反向推进到( 0 , 0 )。 矩阵 A 与 B 的和 C=A+B 包含了在特定断点( i 、 j )的最优比对 得分。称 C 矩阵为总得分矩阵,而 A 、 B 分别是前缀和后缀的得 分矩阵。 根据 C 的最大值,可非常容易地找出最优比对所对应的路径。

-ATTCGG GATTC-- ( c ) 图 ( a )前缀矩阵;( b )总得分矩阵;( c )最优比对 (a)(a)(b)(b)

定理 3-1 :设  是关于 s 1, s 2,...,s k 的最优比对,如果 SP-score(  )  L ,则 score(  ij )  L ij 其中 L ij = L -  ( sim(s x, s y ) ) x<y,(x,y)  (i,j) 分析一个节点是否处于可能最有路径上 即判断一个节点是否是相关的 判断依据: C=A+B 元素的值 超晶格中的一个节点 i = (i 1, i 2, …, i k ) 如果对于所有的 1  x < y  k , i 满足 c xy [i x, i y ]  L xy 则 i 是相关的

4 、星形比对  星形比对的基本思想是:在给定的若干序列中,选择一 个核心序列,通过该序列与其它序列的两两比对形成所 有序列的多重比对  ,从而使得  在核心序列和任何一 个其它序列方向的投影是最优的两两比对。  利用标准的动态规划方法求出所有 s i 和 s c 的最优两两比 对 时间为 O ( kn 2 ) 将这些两两比对聚集起来 并采用 “ 只要是空白, 则永远是空白 ” 的原则。

scs1s2…skscs1s2…sk (s c, s 1 ) (s c, s 2 ) … (s c, s k ) 两两比对  多重比对

如何选择核心序列? 尝试将每一个序列分别作为核心序列,进行星形 多重序列比对,取比对结果最好的一个。 另一种方法是计算所有的两两比对,取下式值最 大的一个:  sim( s i, s c )

例如,有 5 个序列: s 1 = ATTGCCATT s 2 = ATGGCCATT s 3 = ATCCAATTTT s 4 = ATCTTCTT s 5 = ACTGACC s c =s 1 ATTGCCATT ATTGCCATT-- ATTGCCATT ATTGCCATT ATGGCCATT ATC-CAATTTT ATCTTC-TT ACTGACC-- ATTGCCATT-- ATGGCCATT-- ATC-CAATTTT ATCTTC-TT-- ACTGACC----

引理 3.1 : 对于所有的 1≤i , j≤k ,,i  j, 有 d c (s i, s j ) ≤ D(s i, s c ) + D(s c, s j ) ( 3-43 ) 定理 3.2 ( 3-44 ) 星形比对是一种近似的方法,可以证明,用该方法 所得到多重序列比对的代价不会大于最优多重序列比 对代价的两倍

5 、树形比对 k 个待比对的序列 → 具有 k 个叶节点的树 每个叶节点对应一个序列 将序列赋予树的内部节点,可以计算树中每个分支的权值。 权值代表对应分支连接的两个序列之间的相似性。 所有权值的和就是这棵树 寻找一种树的内部节点序列赋予方式,使得树的得分最大。

将 CT 、 CG 、 CT 分别赋予节点 x 、 y 、 z ,则树的得分为 8 。 这里假设如果 a=b ,则 p(a,b)=1 , 否则 p(a,b)=0 , p(a,-)=-1 。 CTCG CT 多重序列比对 → 两两序列比对 → 合并两个比对(比对的比对)

Alignment of alignments, AA 算法 假设 :有两个多重序列比对  1 、  2 ,  1 代表序列 s1 、 s2 、 … 、 si 的多重比对,  2 代表序列 t1 、 t2 、 … 、 tj 的多重比对, ( s1 , s2 , … , si )  ( t1 , t2 , … , tj ) =   代表 s1 和 t1 的两两比对,则计算与  相一致的  1 和  2 比对的算法如下 : ( 1 )标定  1 的各列,如果 s1 在比对中对应位置的编辑操作不 是插入或删除,则这些列分别标记为 s1 对应位置上的字符 a 1 、 a 2 、 … 、 a ls1 ( ls1 为序列 s1 的长度); ( 2 )标定  2 的各列,如果 t1 在比对中对应的位置编辑操作不 是插入或删除,则这些列分别标记为 t1 对应位置上的字符 b 1 、 b 2 、 … 、 b lt1 ( lt1 为序列 t1 的长度); ( 3 )对 a 1 、 a 2 、 … 、 a ls1 和 b 1 、 b 2 、 … 、 b lt1 进行比对; ( 4 )在所得到的比对中,对于  1 、  2 和  中原来有插入或删 除操作的位置,恢复其原有的实际字符或空位字符 “-” 。

例:  1: s1 -H-LVV  2: t1 L-HCLV  : s1 -H-LVV s2 G-VLVC t2 VLHCL- t1 LHCLV- s3 GN-LVV AA 算法的输出为 --H--LVV -G--VLVG -GN--LVV L-HC-LV- V-HC-L— 分别对第 1 、 2 列和 4 、 5 列进行压缩,则最后结果为 —H—LVV G—VLVG GN—LVV LHCLV- VHCL--

对于 n 个序列的树形比对的基本算法过程如下: ( 1 )初始化,对于每个序列,生成一个叶节点 ( 2 )利用 AA 算法合并两个节点,形成一个新节 点,合并的结果放在新节点中,原来的两 个节点作为新节点的子节点 ( 3 )反复执行( 2 ),直到形成 n 个叶节点的树 根为止,根节点中的序列即为最终的多重 比对结果。 s1 s2 s3 s4 α1α1 α2α2 α

6 、其它多重序列比对算法 一般渐进式比对方法所采用的过程: ( 1 )先将多个序列进行两两比对,基于这些比较, 计算得到一个距离矩阵,该矩阵反映每对序列的 关系; ( 2 ) 利用距离矩阵,建立一棵 “ 相关树 ” ; ( 3 )从最接近的一对序列出发,逐步归并形成比 对的聚类,直到所有序列处理完。

例: ((LYCES, SPIOL 84), (YEAST, (XENLA, (((RAT, MOUSE 96), HUMAN 83), CHICK 71) 66), DROVI 58))

相关树

多序列比对

 目前使用最广泛的多重序列比对程序是 ClustalW ClustalW 是一种渐进的比对方法,先将多个序列 进行两两比对,基于这些比较,计算得到一个距 离矩阵,该矩阵反映了每对序列的关系 EBI 的 CLUSTALW 网址是:

7 、统计特征分析  对于所得到的多重序列比对,我们往往需要进行归纳分析, 总结这些序列的特征,或者给出这些序列共性的表示 —H—LVV G—VLVG GN—LVV LHCLV- VHCL-- ( 1 )保守序列 表示序列每个位置上最可能出现的字符(或者所有可能出 现的字符) ATNTSC (N - A,T,C,G ; S - G,C)

( 2 )特征统计图( Profile ) 令 P=(P 1,P 2,…,P L ) , P 表示在  的每一列上 各种字符出现的概率分布 P j =(p j0,p j1,…, pj|A| ) A 代表字母表, P jk 代表字母表 A 中第 k 个字符在第 j 列出现的概率。 第 0 个字符是特殊的空位符号 “-” 。

ATTAT AACTT CTTAT ACTTT AGAAT ( 位置 ) A T C G (碱基)

 利用保守序列或者特征统计图可以判断一个序列是否满足 一定的特征  给定一个序列 s=a 1 a 2 …a m ,定义字符 a 在第 j 位的代价为 其中, |A| 代表字母表 A 的长度, A k 代表 A 的第 k 个字符,特 别地 A 0 代表空缺字符 “-” 。整个序列 s 的代价为 一条序列与特征统计图相对照,如果代价值小,说明该序 列具有相应的特征,否则该序列不具备相应的特征。