第六章 系统发生分析 主讲人:孙 啸 制作人:刘志华 东南大学 吴健雄实验室.

Slides:



Advertisements
Similar presentations
首 页 首 页 上一页 下一页 本讲内容 投影法概述三视图形成及其投影规律平面立体三视图、尺寸标注 本讲内容 复习: P25~P31 、 P84~P85 作业: P7, P8, P14[2-32(2) A3 (1:1)]
Advertisements

纺纱学. 2 绪 论 基本要求:了解纺纱系统的类别 重点掌握:棉纺系统的工艺流程 3 一、纺纱原理与设备 纺纱:用物理或机械的方法将纺织纤维纺成纱 线的过程。 纺纱原理:初加工、原料的选配、开松除杂、 混和、梳理、精梳、并合、牵伸、加捻、卷绕等。 纺纱方法:传统纺纱方法、新型纺纱方法。 纺纱设备:开清棉联合机、梳棉机、精梳机、
第十二章 常微分方程 返回. 一、主要内容 基本概念 一阶方程 类 型 1. 直接积分法 2. 可分离变量 3. 齐次方程 4. 可化为齐次 方程 5. 全微分方程 6. 线性方程 类 型 1. 直接积分法 2. 可分离变量 3. 齐次方程 4. 可化为齐次 方程 5. 全微分方程 6. 线性方程.
概率统计( ZYH ) 节目录 3.1 二维随机变量的概率分布 3.2 边缘分布 3.4 随机变量的独立性 第三章 随机向量及其分布 3.3 条件分布.
基本知识和几何要素的投影 模块一: 字体练习 第一章 制图的基本知识与基本技能 题目提示返回.
第四章 犯罪概念与犯罪构成. 第一节 犯罪概念 一、犯罪概念的类型  (一)犯罪的形式概念  (二)犯罪的实质概念  (三)犯罪的混合概念.
HistCite 结果分析示例 罗昭锋. By:SC 可能原因:文献年度过窄,少有相互引用.
位置相关查询处理 研究背景及意义 移动计算、无线通信以及定位技术的快速发展,使 得位置相关的查询处理及基于位置的信息服务技术 已经成为一个热点研究领域 。 大量的应用领域 ( 如地理信息系统、智能导航、交 通管制、天气预报、军事、移动电子商务等 ) 均迫 切需要有效地查询这些数据对象。
细分曲面 傅孝明 SA 目录 细分曲面的基本思想 两个关键问题 一些基本概念 几种简单的细分曲面算法 细分曲面方法分类.
一、拟合优度检验 二、变量的显著性检验 三、参数的置信区间
Graphene Double Quantum Dot Transport Property Zhan Su Jan. 12, 2011.
地理信息系统概述. 数据和信息 (Data & Information) 数据 原始事实 如:员工姓名, 数据可以有数值、图形、声音、视觉数据等 信息 以一定规则组织在一起的事实的集合。
第 4 章 抽象解释 内容概述 以一种独立于编程语言的方式,介绍抽象解释的 一些本质概念 – 将 “ 程序分析对语言语义是正确的 ” 这个概念公式 化 – 用 “ 加宽和收缩技术 ” 来获得最小不动点的较好的 近似,并使所需计算步数得到限制 – 用 “ 伽罗瓦连接和伽罗瓦插入 ” 来把代价较大的属 性空间用代价较小的属性空间来代替.
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第六十二讲 ) 离散数学. 最后,我们构造能识别 A 的 Kleene 闭包 A* 的自动机 M A* =(S A* , I , f A* , s A* , F A* ) , 令 S A* 包括所有的 S A 的状态以及一个 附加的状态 s.
2.1 结构上的作用 作用及作用效应 作用的分类 荷载分类及荷载代表值.
1 为了更好的揭示随机现象的规律性并 利用数学工具描述其规律, 有必要引入随 机变量来描述随机试验的不同结果 例 电话总机某段时间内接到的电话次数, 可用一个变量 X 来描述 例 检测一件产品可能出现的两个结果, 也可以用一个变量来描述 第五章 随机变量及其分布函数.
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 3 章 曲线拟合的最小二乘法 给出一组离散点,确定一个函数逼近原函数,插值是这样 的一种手段。在实际中,数据不可避免的会有误差,插值函 数会将这些误差也包括在内。
主讲教师:陈殿友 总课时: 124 第八讲 函数的极限. 第一章 机动 目录 上页 下页 返回 结束 § 3 函数的极限 在上一节我们学习数列的极限,数列 {x n } 可看作自变量 为 n 的函数: x n =f(n),n ∈ N +, 所以,数列 {x n } 的极限为 a, 就是 当自变量 n.
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第三十八讲 ) 离散数学. 第八章 格与布尔代数 §8.1 引 言 在第一章中我们介绍了关于集 合的理论。如果将 ρ ( S )看做 是集合 S 的所有子集组成的集合, 于是, ρ ( S )中两个集合的并 集 A ∪ B ,两个集合的交集.
第十一章 曲线回归 第一节 曲线的类型与特点 第二节 曲线方程的配置 第三节 多项式回归.
实验一: 信号、 系统及系统响应 1 、实验目的 1 熟悉连续信号经理想采样前后的频谱变化关系, 加深对时 域采样定理的理解。 2 熟悉时域离散系统的时域特性。 3 利用卷积方法观察分析系统的时域特性。 4 掌握序列傅里叶变换的计算机实现方法, 利用序列的傅里 叶变换对连续信号、 离散信号及系统响应进行频域分析。
线性代数习题课 吉林大学 术洪亮 第一讲 行 列 式 前面我们已经学习了关 于行列式的概念和一些基本 理论,其主要内容可概括为:
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第二十五讲 ) 离散数学. 定理 群定义中的条件 ( 1 )和( 2 )可以减弱如下: ( 1 ) ’ G 中有一个元素左壹适合 1 · a=a; ( 2 ) ’ 对于任意 a ,有一个元素左逆 a -1 适 合 a -1 ·
第二章 随机变量及其分布 第一节 随机变量及其分布函数 一、随机变量 用数量来表示试验的基本事件 定义 1 设试验 的基本空间为 , ,如果对试验 的每一个基 本事件 ,规定一个实数记作 与之对应,这样就得到一个定义在基本空 间 上的一个单值实函数 ,称变量 为随机变量. 随机变量常用字母 、 、 等表示.或用.
第 4 章 过程与变量的作用范围. 4.1 Visual Basic 的代码模块 Visual Basic 的应用程序是由过程组成的, 过程代码存放在模块中。 Visual Basic 提供了 三类模块,它们是窗体模块、标准模块和类 模块。 窗体模块 窗体模块是大多数 Visual Basic.
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 3 章 曲线拟合的最小二乘法 给出一组离散点,确定一个函数逼近原函数,插值是这样的一种手段。 在实际中,数据不可避免的会有误差,插值函数会将这些误差也包括在内。
聚合物在生物高分子分离中的应用 王延梅 中国科学技术大学高分子科学与工程系 Tel
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第三十九讲 ) 离散数学. 例 设 S 是一个集合, ρ ( S )是 S 的幂集合,集合 的交( ∩ ),并(∪)是 ρ ( S )上的两个代数运算, 于是,( ρ ( S ), ∩ ,∪) 是一个格。而由例 知.
信息利用与学术论文写作 Library of Jiangsu University, Zhenjiang Sha Zhenjiang
第二章 贝叶斯决策理论 3学时.
流态化 概述 一、固体流态化:颗粒物料与流动的流体接触,使颗粒物料呈类 似于流体的状态。 二、流态化技术的应用:流化催化裂化、吸附、干燥、冷凝等。 三、流态化技术的优点:连续化操作;温度均匀,易调节和维持; 气、固间传质、传热速率高等。 四、本章基本内容: 1. 流态化基本概念 2. 流体力学特性 3.
非均相物系的分离 沉降速度 球形颗粒的 :一、自由沉降 二、沉降速度的计算 三、直径计算 1. 试差法 2. 摩擦数群法 四、非球形颗粒的自由沉降 1. 当量直径 de :与颗粒体积相等的圆球直径 V P — 颗粒的实际体积 2. 球形度  s : S—— 与颗粒实际体积相等的球形表面积.
量子化学 第四章 角动量与自旋 (Angular momentum and spin) 4.1 动量算符 4.2 角动量阶梯算符方法
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 5 章 解线性方程组的直接法 实际中,存在大量的解线性方程组的问题。很多数值方 法到最后也会涉及到线性方程组的求解问题:如样条插值的 M 和.
主讲教师:陈殿友 总课时: 124 第十一讲 极限的运算法则. 第一章 二、 极限的四则运算法则 三、 复合函数的极限运算法则 一 、无穷小运算法则 机动 目录 上页 下页 返回 结束 §5 极限运算法则.
在发明中学习 线性代数 概念的引入 李尚志 中国科学技术大学. 随风潜入夜 : 知识的引入 之一、线性方程组的解法 加减消去法  方程的线性组合  原方程组的解是新方程的解 是否有 “ 增根 ” ?  互为线性组合 : 等价变形  初等变换  高斯消去法.
Photoshop CS4 标准培训教程 第三章第三章 在 Photoshop CS4 中所谓的不规则选区指的是随意性强,不被局限在几何形状内, 他们可以是鼠标任意创建的也可以是通过计算而得到的单个选区或多个选区。在 Photoshop 中可以用来创建不规则选区的工具被分组放置到套索工具组、魔棒工具组.
§2.2 一元线性回归模型的参数估计 一、一元线性回归模型的基本假设 二、参数的普通最小二乘估计( OLS ) 三、参数估计的最大或然法 (ML) 四、最小二乘估计量的性质 五、参数估计量的概率分布及随机干 扰项方差的估计.
第一节 相图基本知识 1 三元相图的主要特点 (1)是立体图形,主要由曲面构成; (2)可发生四相平衡转变; (3)一、二、三相区为一空间。
1/108 随机信号分析. 2/116 第 2 章 随机信号 3/ 定义与基本特性 2.2 典型信号举例 2.3 一般特性与基本运算 2.4 多维高斯分布与高斯信号 2.5 独立信号 目 录.
量子力学教程 ( 第二版 ) 3.4 连 续 谱 本 征 函 数 的 归 一 化 连续谱本征函数是不能归一化的 一维粒子的动量本征值为的本征函数 ( 平面波 ) 为 可以取 中连续变化的一切实数值. 不难看出,只要则 在量子力学中, 坐标和动量的取值是连续变化 的 ; 角动量的取值是离散的.
第 3 章 控制流分析 内容概述 – 定义一个函数式编程语言,变量可以指称函数 – 以 dynamic dispatch problem 为例(作为参数的 函数被调用时,究竟执行的是哪个函数) – 规范该控制流分析问题,定义什么是可接受的控 制流分析 – 定义可接受分析在语义模型上的可靠性 – 讨论分析算法.
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第五十三讲 ) 离散数学. 定义 设 G= ( V , T , S , P ) 是一个语法结构,由 G 产生的语言 (或者说 G 的语言)是由初始状态 S 演绎出来的所有终止符的集合, 记为 L ( G ) ={w  T *
编译原理总结. 基本概念  编译器 、解释器  编译过程 、各过程的功能  编译器在程序执行过程中的作用  编译器的实现途径.
周期信号的傅里叶变换. 典型非周期信号 ( 如指数信号, 矩形信号等 ) 都是满足绝对可 积(或绝对可和)条件的能量信号,其傅里叶变换都存在, 但绝对可积(或绝对可和)条件仅是充分条件, 而不是必 要条件。引入了广义函数的概念,在允许傅里叶变换采用 冲激函数的前提下, 使许多并不满足绝对可积条件的功率.
卫生学(第 7 版) · 第十二章 直线相关与回归 1 直线相关与回归 第十一章. 卫生学(第 7 版) · 第十二章 直线相关与回归 2 主要内容 直线相关 直线回归 直线相关与回归的区别与联系 等级相关.
§8-3 电 场 强 度 一、电场 近代物理证明:电场是一种物质。它具有能量、 动量、质量。 电荷 电场 电荷 电场对外的表现 : 1) 电场中的电荷要受到电场力的作用 ; 2) 电场力可移动电荷作功.
 符号表  标识符的作用: 声明部分:定义了各种对象及对应的属性和 使用规则。 程序体:对所定义的对象进行各种操作。 $ididname IdnameAttributeIR  必要性 Token : 新表-符号表(种类、类型等信息):
Department of Mathematics 第二章 解析函数 第一节 解析函数的概念 与 C-R 条件 第二节 初等解析函数 第三节 初等多值函数.
首 页 首 页 上一页 下一页 本讲内容本讲内容 视图,剖视图(Ⅰ) 复习: P107 ~ P115 作业: P48(6-2,6-4), P49( 去 6-6) P50, P51(6-13), P52 P50, P51(6-13), P52 P53 (6-18,6-20) P53 (6-18,6-20)
1-4 节习题课 山东省淄博第一中学 物理组 阚方海. 2 、位移公式: 1 、速度公式: v = v 0 +at 匀变速直线运动规律: 4 、平均速度: 匀变速直线运动 矢量式 要规定正方向 统一单位 五个量知道了三 个量,就能求出 其余两个量 3 、位移与速度关系:
《 UML 分析与设计》 交互概述图 授课人:唐一韬. 知 识 图 谱知 识 图 谱知 识 图 谱知 识 图 谱.
1 、如果 x + 5 > 4 ,那么两边都 可得 x >- 1 2 、在- 3y >- 4 的两边都乘以 7 可得 3 、在不等式 — x≤5 的两边都乘以- 1 可得 4 、将- 7x — 6 < 8 移项可得 。 5 、将 5 + a >- 2 a 移项可得 。 6 、将- 8x < 0.
1 物体转动惯量的测量 南昌大学理学院
§10.2 对偶空间 一、对偶空间与对偶基 二、对偶空间的有关结果 三、例题讲析.
请同学们仔细观察下列两幅图有什么共同特点? 如果两个图形不仅形状相同,而且每组对应点所在的直线 都经过同一点, 那么这样的两个图形叫做位似图形, 这个点叫做位 似中心.
表单自定义 “ 表单自定义 ” 功能是用于制作表单的 工具,用数飞 OA 提供的表单自定义 功能能够快速制作出内容丰富、格 式规范、美观的表单。
综合性问题 距离和角度的度量 画法几何及机械制图 精品资源共享课 换面法应用 工程图学教研室. 工程实际抽象出来的几何问题,如距离、角度的度量;点、线、面 的定位等,并不是单纯的平行、相交、垂直问题,而多是较复杂的综 合问题,其突出特点是要受若干条件的限制,求解时往往要同时满足 几个条件。 解决此类问题的方法通常是:分析、确定解题方案及投影图上实.
7 生产费用在完工产品与在产 品之间分配的核算. 2 第七章 生产费用在完工产品与在产品之 间的分配  知识点 :  理解在产品的概念  掌握生产费用在完工产品与在产品之间的分 配.
力的合成 力的合成 一、力的合成 二、力的平行四边形 上一页下一页 目 录 退 出. 一、力的合成 O. O. 1. 合力与分力 我们常常用 一个力来代替几个力。如果这个 力单独作用在物体上的效果与原 来几个力共同作用在物体上的效 果完全一样,那么,这一个力就 叫做那几个力的合力,而那几个 力就是这个力的分力。
个体 精子 卵细胞 父亲 受精卵 母亲 人类生活史 问题:人类产生配子(精、卵 细胞)是不是有丝分裂?
逻辑设计基础 1 第 7 章 多级与(或)非门电路 逻辑设计基础 多级门电路.
八. 真核生物的转录 ㈠ 特点 ① 转录单元为单顺反子( single cistron ),每 个蛋白质基因都有自身的启动子,从而造成在功能 上相关而又独立的基因之间具有更复杂的调控系统。 ② RNA 聚合酶的高度分工,由 3 种不同的酶催化转 录不同的 RNA 。 ③ 需要基本转录因子与转录调控因子的参与,这.
人 有 悲 欢 离 合, 月有阴晴圆缺。月有阴晴圆缺。 华师大版七年级数学第二册 海口市第十中学 数学组 吴锐.
欢 迎 使 用 《工程流体力学》 多媒体授课系统 燕 山 大 学 《工程流体力学》课程组. 第九章 缝隙流动 概述 9.1 两固定平板间的层流流动 9.2 具有相对运动的两平行平板 间的缝隙流动 9.3 环形缝隙中的层流流动.
1 第三章 数列 数列的概念 考点 搜索 ●数列的概念 ●数列通项公式的求解方法 ●用函数的观点理解数列 高考 猜想 以递推数列、新情境下的 数列为载体, 重点考查数列的通 项及性质, 是近年来高考的热点, 也是考题难点之所在.
第二节. 广告牌为什么会被风吹倒? 结构的稳定性: 指结构在负载的作用下 维持其原有平衡状态的能力。 它是结构的重要性质之一。
目录 上页 下页 返回 结束 二、无界函数反常积分的审敛法 * 第五节 反常积分 无穷限的反常积分 无界函数的反常积分 一、无穷限反常积分的审敛法 反常积分的审敛法  函数 第五章 第五章.
本章讨论有限自由度结构系统,在给定载荷和初始条件激励下的系统动力响应计算方法。 第 六 章
§7.2 估计量的评价标准 上一节我们看到,对于总体 X 的同一个 未知参数,由于采用的估计方法不同,可 能会产生多个不同的估计量.这就提出一 个问题,当总体的一个参数存在不同的估 计量时,究竟采用哪一个好呢?或者说怎 样评价一个估计量的统计性能呢?下面给 出几个常用的评价准则. 一.无偏性.
Presentation transcript:

第六章 系统发生分析 主讲人:孙 啸 制作人:刘志华 东南大学 吴健雄实验室

Charles Darwin (1809-1882)

第一节 系统发生与系统发生树 基本概念: 系统发生(phylogeny)——是指生物形成或进化的历史 第一节 系统发生与系统发生树 基本概念: 系统发生(phylogeny)——是指生物形成或进化的历史 系统发生学(phylogenetics)——研究物种之间的进化关系 系统发生树(phylogenetic tree)——表示形式,描述物种之间进化关系

Willi Hennig (1913-1976) 系统发生学(分支学)创始人

经典系统发生学 主要是物理或表型特征 现代系统发生学 利用从遗传物质中提取的信息作为物种特征 如生物体的大小、颜色、触角个数 具体地说就是核酸序列或蛋白质分子 关于现代人起源的研究: 线粒体DNA ——所有现代人都是一个非洲女性的后代

物种之间的进化关系 分类单元 (物种或序列)

(1)如果是一棵有根树,则树根代表在进化历史上是最早的、并且与其它所有分类单元都有联系的分类单元; 系统发生树性质: (1)如果是一棵有根树,则树根代表在进化历史上是最早的、并且与其它所有分类单元都有联系的分类单元; (2)如果找不到可以作为树根的单元,则系统发生树是无根树; (3)从根节点出发到任何一个节点的路径指明进化时间或者进化距离。

对于给定的分类单元数,有很多棵可能的系统发生树,但是只有一棵树是正确的。 系统发生分析的目标 ——寻找这棵正确的树

3、系统发生分析步骤 (1)序列比对 (2)确定替换模型 (3)构建系统发生树 (4)评价所建立的树

计算序列之间距离 令S(i,j)是序列i和序列j比对位置得分的加权和 归一化的距离: 其中Sr(i,j)是序列i和j随机化之后的比对得分的加权和,Smax(i,j)是可能的最大值 令Sr(i,j)=0 为了适合于处理相似性较小的序列,可以进一步修改距离计算公式

两类数据: 距离 离散特征 离散特征数据可分为 二态特征——例如:DNA序列上的某个位置如果是剪切位点 多态特征——例如:某一位置可能的碱基有A、T、G或C

系统发生树的构建方法分为两大类: 基于距离的构建方法 非加权组平均法 基于离散特征的构建方法 邻近归并法 Fitch-Margoliash法 最小进化方法 基于离散特征的构建方法 最大简约法 最大似然法 进化简约法 相容性方法

根据建树算法在执行过程中采用的搜索方式,系统发生树的构建方法也可以分为以下3类。 (1)穷尽搜索方法 即产生所有可能的树,然后根据评价标准选择一棵最优的树。 (2)分支约束方法 即根据一定的约束条件将搜索空间限制在一定范围内,产生可能的树,然后择优。 (3)启发式或经验性方法 根据先验知识或一定的指导性规则压缩搜索空间,提高计算速度。

第二节 基于距离的系统发生树构建方法 基本思路是: 第二节 基于距离的系统发生树构建方法 基本思路是: 给定一种序列之间距离的测度,在该距离测度下构建一棵系统发生树,使得该树能够最好地反映已知序列之间的距离。

10条核酸序列的距离矩阵

例,如果有三个物种,其两两距离如下: dab = 0.08 dac = 0.45 dbc = 0.43 通过求解方程,得到 如图6.2所示的一棵树。

1、最小二乘法 目标是构造一棵树T,该树的叶节点代表物种,用该树预测物种之间的距离。通过优化,使下式最小化: 这里,Dij为物种i和j的实际观察距离(或序列之间的计算距离),dij是物种i和j在系统发生树T 中的距离,Wij是与物种i和j相关的权值。SSQ(T)是树T所有预测值与实际观察值偏差的累加和。权值Wij一般为1,或 Wij =1/ Dij2

2、连锁聚类方法 选择距离最小的一对序列 将这两个序列合二为一,形成一个新的对象(代表这两个序列的祖先) 重新计算这个新的对象与其它序列的距离。 单连锁聚类: d(x,u)=min(d(y,u),d(z,u)) 最大连锁聚类: d(x,u)=max(d(y,u),d(z,u)) 平均连锁聚类: d(x,u)=1/2(d(y,u)+d(z,u)) 其中x代表y和z的合并,u代表任意其它对象。

3、非加权分组平均法 (Unweighted Pair Group Method with Arithmetic mean, UPGMA) 在平均连锁聚类过程中,一个新类到其它类之间的距离就是简单的原距离平均值。 如果类中分类单元个数不一样,原距离矩阵中各个距离值对新距离计算的贡献就不一样,或者说是经过“加权”的,称这样的聚类为加权分组平均。 在非加权分组平均法中,在计算新分类到其它分类之间的平均距离时按照各分类中分类单元的数目进行加权处理。

UPGMA算法的执行过程如下: (1) 初始化:使每个物种自成一类,如果有n个物种,则开始时共有n个类,每个类的大小为1,分别用n个叶节点代表每个类; (2)执行下列循环: l  寻找具有最小距离Dij的两个类i、j;建立一个新的聚类(ij) l  连接i和j形成新节点 (ij),生长两个新的分支,将i 和j 连接到(ij),分支的长度为Dij/2; l  计算新分类到其它类的距离    其中ni、nj、(ni+nj)分别为i类、j类、(ij)类的元素个数; l     在距离矩阵中删除与类i和类j相应的行和列,为类(ij)加入新的行和列; 重复循环,直到仅剩一个类为止。

4、邻近归并法 基本思想: 在进行类的合并时,不仅要求待合并的类是相近的,同时还要求待合并的类远离其它的类。 重建时将距离最小的两个叶节点连接起来,合并这两个叶节点所代表的分类,形成一个新的分类。在树中增加一个父节点,并在距离矩阵中加入新的分类,同时删除原来的两个分类。 重复上一次循环, 直到只剩一个类为止。

在每一次的循环中,在树中寻找两个物种的直接祖先。对于节点i,到其它节点的距离ui 按下式进行估算: ui = ki(Dik/(n-2)) 这里Dik是分类i和分类 k之间的距离 选择Dij-ui-uj最小的一对节点i 和节点j 进行归并

算法如下: (1)初始化(与UPGMA一样) (2)循环 对于所有的分类单元i,计算ui = kI (Dik/(n-2)); 选择一对分类单元i 和j ,使Dij-ui-uj最小; 将i和j归并为新的类 (ij),在树中添加一个新的节点,代表新生成的分类,计算从i和j到新节点的分支长度; di,(ij) = 1/2Di,j +1/2(ui-uj), dj,(ij) = 1/2Di,j +1/2(uj-ui) 计算新类与其它类的距离; D(ij),k = 1/2(Di,k + Dj,k - Di,j) 删除聚类i和j,添加新类 (ij); 如果有两个以上的分类存在,则继续执行循环;否则用长度为Di,j的分支连接剩余的两个类 。

图6.7 利用邻近归并算法构造的系统发生树

图6.8 利用邻近归并算法构造的系统发生树

构建一棵系统发生树,使得某个目标函数最大。 第三节 基于特征的系统发生树构建方法 一般问题: 给定n个物种 m个用以描述物种的特征 每个物种所对应的特征值 构建一棵系统发生树,使得某个目标函数最大。

输入一般为n×m的特征矩阵M 在构建系统发生树假设特征是相互独立的,即一个特征的变化不影响另一个特征。 另外,还假设在进化过程中,两个物种分叉后独立进化,互不影响。

1、最大简约法 目标: 构造一棵反映分类单元之间最小变化的系统发生树。 所谓简约就是使代价最小。 对于系统发生树最直观的代价计算就是沿着各个分支累加特征变化的数目。

甲 乙 丙 丁 戊 节点1 节点3 节点2 根节点

最大简约法的处理过程: (1)针对待比较的物种,选择核酸或蛋白质序列。有些分子比其它分子变化慢,适合于进行距离分析,例如哺乳类的线粒体DNA、管家蛋白质等; (2)比较各个序列,产生序列的多重比对,确定各个序列符号的相对位置; (3)根据每个序列比对的位置(即多重对比排列的每一列),确定相应的系统发生树,该树用最少的进化动作产生序列的差异,最终生成完整的树。

对于一棵系统发生树T 假设树中的节点用V(T)表示, 树的边用E(T), 以uj、vj分别表示节点u和v的第j个特征, 则树T的代价为:

单特征Fitch算法: 首先对于每个待分析的物种,分配一个叶节点v,其值vc取对应物种的特征值。然后执行下面两步: (1) 给每个节点v赋予一个集合Sv:如果v是叶节点 ,则Sv ={vc};如果v是内部节点,并且u、w是其子节点,如果SuSw ,则Sv =SuSw;否则 S(v)=SuSw 。这个过程是从叶节点开始,直至处理到根节点。如果用递归算法,则应该按后序遍历方式处理每个节点。 (2)给定集合Sv,为每个内部节点v的特征c赋予值vc。如果v有一个父节点u满足ucSv,则将uc赋予vc,否则任取一个tSv赋予vc。这个过程的执行方向刚好与上一个过程相反,即从树根出发,直至叶节点为止,最后得到完全标定的树。应按前序遍历方式依次处理每个节点。

2、最大似然法 最大似然法目标是寻找能够以较高概率产生观察数据的系统发生树。 对于给定的一组物种,假设它们的观察值为M(M为向量)  选择一棵树,使得P(M|T)最大,

3、相容性方法 定义目标函数考虑的另一方面是相容性(compatibility),即与一棵树相一致的特征个数。 很显然,相容的特征数越多越好。 相容性方法实际上是简约方法的一种简化,在所有的特征都是二值的情况下,这种方法非常有用。

* * 令S代表一组分类单元 T是关于S的系统发生树 如果在解释叶节点中分类单元的特征数据时,只需要沿T的一条边变化,则称该特征与系统发生树T是相容的。 0 0 1 1 1 0 0 1 * * * (a) (b) 具有4个分类单元的系统发生树: (a)相容特征;(b)不相容特征。

C(1,1) D(1,1) A(1,0) B(0,0) E(0,0) (T2 :1,1) (T1 :1,0) (T:0,0) 图6.13 根据特征值组合表构造的系统发生树

整棵树和它的组成部分(分支)的置信度是多少? 系统发生树的可靠性 对于所构建的系统发生树,统计分析的误差可能会影响所建树的可靠性。 问题: 整棵树和它的组成部分(分支)的置信度是多少? 这样得到正确的树的可能性比随机选出一棵是正确的树的可能性大多少? 自举检验 参数检验

系统发生分析中可能存在的问题 全基因组的系统发生分析 序列的选择 基因的水平转移 不同的序列,不同的结果 基于多棵系统发生树的方法 基于基因内容的方法 基于蛋白质折叠结构的方法 基于基因次序的方法 基于连接的直向同源蛋白的方法 基于代谢途径(pathway)的方法

系统发生分析常用软件 (1) PHYLIP (2) PAUP (3) TREE-PUZZLE (4) MEGA (5) PAML (6) TreeView (7) VOSTORG (8) Fitch programs (9) Phylo_win (10) ARB (11) DAMBE (12) PAL (13) Bionumerics 其它程序见: http://evolution.genetics.washington.edu/phylip/software.html

系统发生分析实例 分析的对象 13条来自不同物种的同源蛋白质 (1)多重序列比对 (2)构建系统发生树

根据序列比对结果计算序列之间的距离,生成距离矩阵。然后分别利用聚类方法和拓扑学方法建立系统发生树。

SARS病毒基因组与其他冠状病毒的结构相似。 主要蛋白质: RNA聚合酶蛋白(聚合酶1a, 1b) S蛋白(spike protein) E蛋白(membrane protein) N蛋白(nucleocapsid protein)等。 进化关系树如下

SARS病毒明显不同于同其他三个冠状病毒群,可能归属于新的冠状病毒群。

THE END