Download presentation
Presentation is loading. Please wait.
2
第七章 蛋白质结构预测 主讲人:孙 啸 制作人 : 刘志华 东南大学 吴健雄实验室
3
第一节 引言
4
蛋白质结构预测问题 序列 —— 结构 —— 功能 ….-Gly-Ala-Glu-Phe-…. FUNCTION
5
结构预测问题 ….-Gly-Ala-Glu-Phe-…. FUNCTION ?
6
解决方法 ….-Gly-Ala-Glu-Phe-…. FUNCTION !
7
寻找一种从蛋白质的氨基酸线性 序列到蛋白质所有原子三维坐 标的一种映射
8
蛋白质结构预测主要有两大类方法: ( 1 )理论分析方法 – 通过理论计算(如分子力学、分子动力学计算) 进行结构预测。 ( 2 )统计的方法 – 对已知结构的蛋白质进行统计分析,建立序列到 结构的映射模型,进而对未知结构的蛋白质根据 映射模型直接从氨基酸序列预测结构。 – 包括: 经验性方法 结构规律提取方法 同源模型化方法
9
第二节 蛋白质二级结构预测 蛋白质 序列: ↓ 二级结构:
10
二级结构预测 蛋白质 序列: 二级结构: QLMGERIRARRKKLK → STHHHHHHHHHHHHT
11
1 、二级结构预测概述 – 蛋白质的二级结构预测的基本依据是: 每一段相邻的氨基酸残基具有形成一定二 级结构的倾向。 – 二级结构预测问题是模式分类问题 – 二级结构预测的目标: 判断每一段中心的残基是否处于 螺旋、 折叠、 转角(或其它状态)之一的二级结构态,即三 态。
12
基本策略( 1 ) 相似序列 → 相似结构 QLMGERIRARRKKLKQLMGAERIRARRKKLK 结构?
13
基本策略( 2 ) 分类分析 α 螺旋 提取样本 聚类分析 学习分类规则 预测 ….-Gly-Ala-Glu-Phe-….
14
二级结构预测的方法大体分为三代: – 第一代是基于单个氨基酸残基统计分析 从有限的数据集中提取各种残基形成特定二级结构的 倾向,以此作为二级结构预测的依据。 – 第二代预测方法是基于氨基酸片段的统计分析 统计的对象是氨基酸片段 片段的长度通常为 11-21 片段体现了中心残基所处的环境 在预测中心残基的二级结构时,以残基在特定环境形 成特定二级结构的倾向作为预测依据
15
这些算法可以归为几类: ( 1 )基于统计信息 ( 2 )基于物理化学性质 ( 3 )基于序列模式 ( 4 )基于多层神经网络 ( 5 )基于多元统计 ( 6 )基于机器学习的专家规则 ( 7 )最邻近算法
16
第一代和第二代预测方法对三态预测的准确 率都小于 70% ,而对 折叠预测的准确率仅为 28 48% – 其主要原因是只利用局部信息 第三代方法(考虑多条序列) – 运用长程信息和蛋白质序列的进化信息 – 准确度有了比较大的提高
17
2 、蛋白质二级结构预测方法 (1) 经验参数法 蛋白质二级结构的组成规律性比较强 三种基本二级结构平均占氨基酸残基的 85% 各种二级结构非均匀地分布在蛋白质中
18
– 有些蛋白质中含有大量的 螺旋 如血红蛋白和肌红蛋白 – 而一些蛋白质中则不含或者仅含很少的 螺旋 如铁氧蛋白 – 有些蛋白质的二级结构以 折叠为主 如免疫球蛋白 例:肽链 Ala(A)-Glu(E)-Leu(L)-Met(M) 倾向于形成 螺旋 肽链 Pro(P)-Gly(G)-Tyr(Y)-Ser(S) 则不会形成 螺旋
19
每种氨基酸出现在各种二级结构中倾向或者 频率是不同的 例如: Glu 主要出现在 螺旋中 Asp 和 Gly 主要分布在转角中 Pro 也常出现在转角中,但是绝不会出现在 螺旋中 可以根据每种氨基酸残基形成二级结构的倾 向性或者统计规律进行二级结构预测
20
经验参数法由 Chou 和 Fasman 在 70 年代提出 来 是一种基于单个氨基酸残基统计的经验预测 方法。通过统计分析,获得的每个残基出现 于特定二级结构构象的倾向性因子,进而利 用这些倾向性因子预测蛋白质的二级结构。
21
一个氨基酸残基的构象倾向性因子定义为 P i = A i / T i (i= ,β,c, t) 式中下标 i 表示构象态 如 螺旋、 β 折叠、转角、无规卷曲等; T i 是所有被统计残基处于构象态 i 的比例; A i 是第 A 种残基处于构象态 i 的比例; P i 大于 1.0 表示该残基倾向于形成二级结构构象 i , 小于 1.0 则表示倾向于形成其它构象。
23
发现关于二级结构的经验规则 基本思想是在序列中寻找规则二级结构的成核 位点和终止位点。 扫描输入的氨基酸序列,利用一组规则发现可能成 为特定二级结构成核区域的短序列,然后对于成核 区域进行扩展,不断扩大成核区域,直到倾向性因 子小于 1.0 为止。 规则: – ( i ) α 螺旋规则 – ( ii ) β 折叠规则 – ( iii )转角规则 – (iv) 重叠规则 延伸 成核区 延伸
24
( i ) α 螺旋规则 沿蛋白质序列寻找 α 螺旋核 – 相邻的 6 个残基中如果有至少 4 个残基倾向于形成 α 螺旋,则认为是螺旋核。 从螺旋核向两端延伸 – 直至四肽片段的 α 螺旋倾向性因子的平均值 {P }<1.0 为止。 将螺旋两端各去掉 3 个残基 – 剩余部分若长于 6 个残基,而且 {P } >1.03 ,则 预测为螺旋。 延伸 螺旋核 延伸
25
( ii ) β 折叠规则 相邻 6 个残基中若有 4 个倾向于形成 β 折叠,则 认为是折叠核。 折叠核向两端延伸直至 4 个残基的平均折叠倾 向性因子 {P }<1.0 。 若延伸后的片段的 {P }>1.05 ,则预测为 β 折 叠。
26
( iii )转角规则 转角的模型为四肽 四肽片段 Pt 的平均值大于 100 ,并且 Pt 的均值同时 大于 P 的均值以及 P 的均值,则可以预测这样连 续的 4 个残基形成转角。 则可以预测这样连续的 4 个氨基酸形成转角。
27
(iv) 重叠规则 对于螺旋和折叠的重叠区域,按 {P a } 和 {P } 的 相对大小进行预测 若 {P a } 大于 {P } ,则预测为螺旋; 反之,预测为折叠。
28
(2) GOR 方法 是一种基于信息论和贝叶斯统计学的方法 GOR 将蛋白质序列当作一连串的信息值来处 理 GOR 方法不仅考虑被预测位置本身氨基酸残 基种类的影响,而且考虑相邻残基种类对该 位置构象的影响
29
序列窗口 中心残基 窗口中各个残基对中心残基二级结构的支持程度
30
两个事件 S 和 R 的条件概率 P(S|R) 即在 R 发生的条件下, S 发生的概率 定义信息为: 若 S 和 R 无关,则 I(S; R)=0 若 R 的发生有利于 S 的发生,则 I(S; R)>0 若 R 的发生不利于 S 的发生,则 I(S; R)<0
31
I(S; R) 在二级结构预测中的含义 –R 代表中心氨基酸及其所处环境 –S 代表二级结构类型 –I(S; R) 代表中心氨基酸处于 S 的信息值
32
例如:假定数据库中有 1830 个残基, 780 个 处于螺旋态, 1050 个处于非螺旋态 库中共有 390 个丙氨酸( A ),有 240 个 A 处于 螺旋态,其余 150 个 A 处于非螺旋态。 可得:
33
(3) Lim 方法 —— 立体化学方法 氨基酸的理化性质对二级结构影响较大 在进行结构预测时考虑氨基酸残基的物理化学性 质 – 如疏水性、极性、侧链基团的大小等,根据残基各方 面的性质及残基之间的组合预测可能形成的二级结构。 “ 疏水性 ” 是氨基酸的一种重要性质,疏水性的氨 基酸倾向于远离周围水分子,将自己包埋进蛋白 质的内部。
36
α 螺旋的形成规律: 在一段序列中发现第 i 、 i+3 、 i+4 位(如 1 、 4 、 5 )是疏水残基时,这一片段就被预测 为 α 螺旋; 当发现第 i 、 i+1 、 i+4 位(如 7 , 8 , 11 ) 为疏水残基时,这一片段也被预测为 α 螺 旋。
37
对于 β 折叠的形成规律: 对于 β 折叠,也存在着一些特征的亲疏水 残基间隔模式,埋藏的 β 折叠通常由连续 的疏水残基组成,一侧暴露的 β 折叠则通 常具有亲水 - 疏水的两残基重复模式。 原则上,通过在序列中搜寻特殊的亲疏水 残基间隔模式,就可以预测 α 螺旋和 β 折叠。
38
点模式方法: 将 20 种氨基酸残基分为亲水、疏水以及两性残 基三类 用八残基片段表征亲疏水间隔模式 以一个二进制位代表一个残基,疏水为 1 ,亲 水为 0 ,共八位。 这样,八残基片段的亲疏水模式可用 0 255 的 数值来表示
39
α 螺旋的特征模式对应的值为: 9 , 12 , 13 , 17 , …… , 201 , 205 , 217 , 219 , 237 。 β 折叠的特征模式: 由连续的 1 或交替的 01 构成。
40
疏水性定量计算
41
(4) 同源分析法 将待预测的片段与数据库中已知二级结构的 片段进行相似性比较,利用打分矩阵计算出 相似性得分,根据相似性得分以及数据库中 的构象态,构建出待预测片段的二级结构。 该方法对数据库中同源序列的存在非常敏感, 若数据库中有相似性大于 30% 的序列,则预 测准确率可大大上升。
42
假设已知二级结构的氨基酸片段 T=STNGIYW T 的二级结构为 CHHHHHT H 代表 螺旋, T 代表转角, C 代表无规卷曲 待预测二级结构的氨基酸片段 U=ATSGVFL 序列比对: T = S T N G I Y W U = A T S G V F L 直接将 T 的构象态赋予 U
43
更为合理的方法: 是将待预测二级结构的蛋白质 U 与多个同源 序列进行多重比对,对于 U 的每个残基位置, 其构象态由多个同源序列对应位置的构象态 决定,或取出现次数最多的构象态,或对各 种可能的构象态给出得分值。
44
(5) 人工神经网络方法
46
(6) 综合方法 综合方法不仅包括各种预测方法的综合,而 且也包括结构实验结果、序列对比结果、蛋 白质结构分类预测结果等信息的综合。 – 多个程序同时预测,综合评判 一致结果 – 序列比对与二级结构预测 – 双重预测 首先预测蛋白质的结构类型 然后再预测二级结构
47
3 、利用进化信息预测蛋白质的二级结构 蛋白质序列家族中氨基酸的替换模式是高度 特异的,如何利用这样的进化信息是二级结 构预测的关键。 蛋白质二级结构预测软件系统 PHD – 第一步工作是形成同源序列的多重对比排列 – 第二步工作是将得到的多重比对的统计结果送 到一个神经网络中计算。
50
4 、 RNA 二级结构的预测 RNA 的结构可以分为三个层次 – 一级结构 – 二级结构 – 空间结构
52
RNA二级结构的预测方法 – 点矩阵法作图 – 动态规划法 – 最大匹配法 – 最小自由能法等。
53
第三节 二维结构中的预测 残基之间的距离 只要给出所有残基之间的距离,就可以利 用距离几何或分子动力学方法构建蛋白质 的三维结构。 预测残基之间距离
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.