Download presentation
Presentation is loading. Please wait.
1
Chapter 4 Clusters and repeats
2
Gene clusters are formed by duplication and divergence
Sequence divergence is the basis for the evolutionary clock Pseudogenes are dead ends of evolution Unequal crossing-over rearranges gene clusters Genes for rRNA form tandem repeats ( The repeated genes for rRNA maintain constant sequence) Crossover fixation could maintain identical repeats Satellite DNAs often lie in heterochromatin Arthropod satellites have very short identical repeats Mammalian satellites consist of hierarchical repeats Minisatellites are useful for genetic mapping 4 簇和重复89 基因簇是通过复制和分化形成的90 序列分化是进化时钟的基础 ,699 假基因是进化的废弃端 ,703 非对等的交叉重排基因簇 ,736 rRNA的基因形成一前一后的重复单元 ,704 交叉固定可维持同样的重复 ,738 卫星体DNA通常存在于异染色质中 ,729 节肢动物卫星体有非常短的同一重复 ,730 哺乳动物卫星体由分级重复组成 ,730 微卫星体有助于绘制基因图谱 ,739
3
4.1 Introduction Gene cluster is a group of adjacent genes that are identical or related. Gene family consists of a set of genes whose exons are related; the members were derived by duplication and variation from some ancestral gene. Satellite DNA consists of many tandem repeats (identical or related) of a short basic repeating unit. Unequal crossing-over describes a recombination event in which the two recombining sites lie at nonidentical locations in the two parental DNA molecules. Gene cluster:基因簇。位于同一染色体上彼此相邻近的一组相同或相关基因称为基因簇,是真核基因组合的一种形式。 Gene family:基因家族。指一组具有相似和相关外显子的基因。基因家族成员来源于某些祖先基因(ancestral gene)的复制和突变作用。它们具有相似的产物。 Satellite DNA:卫星DNA。最初在蔗糖或氧化铯密度梯度超速离心图谱上观察到的位于染色体DNA主带傍边的小带DNA,称其为卫星DNA。线粒体、叶绿体、着丝粒和核糖体类DNA均可在离心中以卫星DNA带出现。从其结构特点来看,卫星DNA含有很多串联重复序列,它们是相同的或相关的序列,每个重复序列中含有一个短的基本重复单位,它是保守的称为核心序列,可能是生物进化过程中保留下来的。在人类和动物基因组中分布着许多小卫星DNA,它们所含重复序列的数目各不相同(同卵双生子和近交系动物除外),故呈现出高度的多态性,这种多态性是进行DNA指纹分析的分子基础。含有相同数目重复序列的小卫星DNA称为等位小卫星DNA。在染色体定位中,卫星DNA位于邻近着丝粒的区域。 Unequal crossing-over:不等交换。
4
4.1 Introduction Figure 1.23 Chiasma formation is responsible for generating recombinants. 图1.23 交叉的形成导致遗传重组产生。 Recombination is a key event in evolution of the genome. A population evolves by the classical recombination illustrated in Figure Figure 1.24, in which an exact crossing-over occurs. The recombinant chromosomes have the same organization as the parental chromosome. They contain precisely the same loci in the same order. However, they contain different combinations of alleles, providing the raw material for natural selection. 第23 章 基因数 由前面几章描述的单个基因的特征,我们可以估计出一个基因的平均大小。通过把它与整个基因组大小相比,我们可以粗略估计出基因数目。因为一些基因可通过不同的方式表达出不止一种产物,所以不同蛋白质的数目要更多一些,但通常只有不到10%的基因可表达出不只一种产物。 尽管我们对基因大小和数目本身已有了更广泛的认识,但由于缺乏足够的关于因基的背景知识,故在确定基因数时仍存在困难。为了精确地得到总基因数,我们需要定义基因密度。随着对越来越长的DNA片断,乃至整个染色体的测序,我们可以更好地估计基因数。 最完备的数据来自于啤酒曲霉(S. cerevisiae)的整个基因组序列。其基因密度很高:平均每个读框约1.4kb, 平均基因间隔约600bp, 也就是说已测序区域中约70%为读框。由测序确定的基因中约有一半要么是已知的,要么与已知基因有关;其余的基因是新的,可以对半要发现的新基因类型的数目有提示作用。 如果我们用22章中算出的基因平均大小,并且进一步假设相邻基因的间隔小于基因本身的一半,我们便可算出基因数(如表23.1所示)。一个细菌有约2400个基因,在酵母中增至约6000个,在果蝇中达到约9000个,而对于哺乳动物(人)则约为125,000。 通过对C.elegans DNA片断的测序可知, 在基因组的有些区域,基因排列较密,而在另一些区域,则较为稀疏。可能共有13,500个基因,这似乎意味着对果蝇和人类的基因数应更多。 基于单个基因的特征进行的估算表明,如果不知道基因间隔,将会很难估算整个基因数的。然而,对单个基因的确定至少给出了估算总基因数的下限。根据大范围的测序进行的估算有以下缺陷:单个读框可能没有被用到(尤其是较短的读框),而且外显子阿能未被恰当地用来确定基因(这样将使对基因数的估算增大)。所有读框的确定给出了基因数的上限。这两个估算值给出了描述细菌和酵母的基因组织成的合理范围。但由于此范围太大,目前还不能对更高等的真核生的基因数给出较好估计。
5
4.1 Introduction Figure 1.24 Recombination involves pairing between complementary strands of the two parental duplex DNAs. 图1.24 重组包括两条平行双链DNAs的互补链的配对。 Recombination is a key event in evolution of the genome. A population evolves by the classical recombination illustrated in Figure Figure 1.24, in which an exact crossing-over occurs. The recombinant chromosomes have the same organization as the parental chromosome. They contain precisely the same loci in the same order. However, they contain different combinations of alleles, providing the raw material for natural selection. 估算基因总数除了可知道基因密谋外,我们还必须会问:其本身是否也重要?是否存在结构上的限制,使得基因要有一定的空间排列,而这是可以解释为何真核细胞基因组体积较大? 另一种研究基因数的方法是通过数出已表达的基因的数目。如果我们根据一个细胞内可以数出的不同种类的mRNA的数目可知脊椎动物细胞平均表达1万至2万个基因。在不同种类细胞中mRNA序 的大量重叠意味着对某种生物而言,已表达的基因总数应在上述数字的几倍之内,即约50, ,000。 真核细胞的基因是独立转录的,且每个基因产生一个单顺反子信使。唯一的例外是C.elegans的基因组,其约25%的基因由多顺反子单元构成(可利用反式拼接表达在这些单元内的一连串基因[见第30章])。 当我们从独立的功能方面来描述基因时,我们经常发现更多的稳定存在的变异基因拷贝。从单个基因到相关的基因家族的扩增无疑增加了基因组中的基因数。虽然现有的证据还可能确定,但平均3-4个基因具有同一独特功能也不是为奇。故总的基因数在某种程度上应包括更少的功能类型数目。 进化的主要驱动力显然是基因的复制,或是以完整的单元,或是以外显子的集合,甚至是以单个外显子。当一完整的基因参与复制时,通常会产生两个行为完全相同的拷贝。但之后将随着不同变异的积累而变得可以区分。
6
4.2 Gene clusters are formed by duplication and divergence
Pseudogenes are inactive but stable components of the genome derived by mutation of an ancestral active gene. 假基因:类似于基因但不表达的DNA序列。 不表现任何功能,是基因的退化形式。假基因在基因组中形成稳定的和无活性的拷贝,由活化的原始基因突变而来,这是因为存在着在某个阶段伤及基因表达的一种或多种缺陷(入启动子错误、有缺陷的剪接信号、框架中有终止信号等)之故。一旦不能产生正常的基因产物,就失去了对发生进一步突变的选择性屏障作用,因此典型的假基因都有很多缺陷。某些假基因有3‘-多聚A尾巴及准确地切掉了内含子,因而与mRNA类似, 被认为是源自插入基因组的逆转录体(可能由某些病毒携带)。 某一祖先基因由复制和变异而产生的一组基因称为基因家族。其成员可能聚集在一起,或分散到不同的染色体中(或两者兼而有之)。尽管一结构基因家族的成员可能在不同时间或不同类型的细胞中表达,但它们通常具有相关的甚至相同的功能。例如,在胚胎和成人的血红细胞中就有不同的球蛋白,而在肌肉细胞和非肌肉细胞中有不同的肌动蛋白。 有时可以从功能明显不同的基因的相同的总体组织形式中看出其关系。这是同一祖先发生多种变异的结果。这样一个整体,有时包括多个基因家族,称为超基因家族。例如,免疫球蛋白既组成了一个明确的基因家族(包括所有抗体),同时还是一个超家族的一部分,该超家族各种与细胞粘附有关的细胞表面分子的家族。 一些基因家族由相同的成员组成。尽管聚集在一起的基因不一定都相同,但聚集是保持基因特征的先决条件。基因族小至复制产生的相邻相似的两个基因组成,大致由前后排成一列的相同的基因组成。当需要产生大量产物时,一个基因将会现大规模的连续重复。例如编码rRNA或组蛋白的基因。 相关的基因被分散到不同的位置必然是由于某一基因在复制后发生了易位。在它们分离后,其基因顺序往往发生改变。 具有相同序列的两个基因并不意味着它们的功能是可以互换的。例如,它们可能在不同的时间或位置表达,因而两者都是必需的;或者由于整体表达水平的严格要求使两种基因都需要。但有时却看不出基因重复的意义。例如,我们所知的啮齿类的两个胰岛素基因在表达和功能上没有区别(而在其它哺乳动物中一个胰岛素基就足够了)。 有时,一个基因家族的成员均是功能基因,仅在进化上相距或远或近,有时,一些基因是无功能的假基因,是进化的遗迹。它们来自那睦曾经有过功能且积累了不少变异的基因。 一些基因簇的组织形式在进化中保留了下来,这引出了一个问题:在何种程度上基因是完全独立的单元。基因的表达在多大的程度上依赖于它的环境?我们知道一些基因只要它们有合适的调控区域,通常在启动子附近,就可以完全表达。但另外的基因却依赖于整个簇的组织结构,例如球蛋白基因(我们将在第27章讨论其调控)。 在描述基因组时,我们应知道在同一控制条件下相关基因多大程度上出现在不同基因簇上。基因组是否存在含有控制几个基因的调控因素的区域?我们还必须知道像球蛋白基因一样被控制的基因的比例和作为独立单元起作用的基因的比例,以及这些区域如何与染色体的物理结构相关?
7
4.2 Gene clusters are formed by duplication and divergence
The major constituent of the red blood cell is the globin tetramer, associated with its heme (iron-binding) group in the form of hemoglobin. Functional globin genes in all species have the same general structure, divided into three exons as shown previously in Figure We conclude that all globin genes are derived from a single ancestral gene; so by tracing the development of individual globin genes within and between species, we may learn about the mechanisms involved in the evolution of gene families. 如前所述,还没有一个特殊的规律来描述变化多样的真核基因结构,有些基因是连续的,所以它的基因组序列和mRNA是共线性的,大多数高等真核生物的基因是不连续的,但内含子的大小和数量变化很大。 关于断裂基因的一些共同特点:1. 断裂基因各部分的顺序在基因组和成熟mRNA中是一样的,所以说基因是断裂的但不是混乱的。2. 在所有组织中,断裂基因具有相同结构,包括生殖组织和躯体的组织,尽管在它们中,有些断裂基因是不表达的,也就是说存在内含子是一个不变的特征。3. 一般来说,核基因的内含子在所有阅读框架中都终止密码子,而且它们都不具有编码蛋白的功能。 各种类型的基因都可能是不连续的:编码蛋白的核基因,编码rRNA的核仁基因,以及编码tRNA的基因等,断裂现象也存在于一些低等真核生物的线粒体,叶绿体基因中,断裂基因并不存在于每一种真核生物中,同时它也可以存在于细菌和噬菌体中,尽管它在原核生物基因组中很少出现。 在编码mRNA的基因中,两端的外显子常包含一些非翻译的先导序列和尾部结构,中间的外显子才编码蛋白,而编码rRNA或tRNA的断裂基因,外显子没有编码蛋白的功能。 一些断裂基因只有一个或很少的内含子。球蛋白是被广泛研究的一个例子。存在两种普遍的球蛋白基因α、β,它们有共同的结构类型,哺乳动物球蛋白基因的结构也有着一致性。 Figure 2.13 All functional globin genes have an interrupted structure with three exons. The lengths indicated in the figure apply to the mammalian b-globin genes.
8
4.2 Gene clusters are formed by duplication and divergence
Figure 4.1 Each of the a-like and b-like globin gene families is organized into a single cluster that includes functional genes and pseudogenes. 图4.1 每个a-like和b-like珠蛋白基因家族都是有功能基因和假基因所组成的基因簇。The division of globin chains into -like and -like reflects the organization of the genes. Each type of globin is coded by genes organized into a single cluster. The structures of the two clusters in the higher primate genome are illustrated in Figure 4.1. 关于基因簇最典型的例子是球蛋白的基因簇,它们组成一古老的基因家族,掌管着动物界中的一个核心功能:通过血流运送氧气。血红细胞中的主要成分是以血红蛋白形式存在的,结合了血红素(结合着铁离子)的球蛋白四聚体。所有物种中的功能性球蛋白基因都具有共同的一般结构,且均由3个外显子组成,如前面图22.4和22.2所示。我们认为所有球蛋白基因都来自一共同的祖先基因,所以在同一物种内或不同物种之间追溯各个球蛋白基因的发展历程,我们就可探知基因家族进化的机理。 在成体的细胞中,球蛋白四聚体由2条相同的链和2条相同的链组成。球蛋白基因的基因和基因各自位于不同的基因位点,它们表达时必须相互协调,以便保证表达出数量相等的两种肽链。因此,这一体系是一个为产生某种特定细胞表现型而需同步调控分散基因的实例。 胚胎血细胞中的血红蛋白聚体形式与成体的不同。每个四聚体包括2个相同的类链和2个相同的类链,它们与成本后的肽链有关,并在后来被其取代。这是一个发育控制的实例。在此,为了在不同阶段实现同一功能,不同的基因相继开启和关闭,并表达出可替代的产物。 关于胚胎与成体的血红蛋白之联系的细节因不同的生物而异。对于人类,其途径包含三个阶段:胚胎,婴儿,成本。这种胚胎与成体间的区别在哺乳动物中普遍存在,但在成本以前的阶段数目却是不同的。对于人类,和是两种类链,、、和是类链。这些链在发育的不同阶段表达(见图23.2)。 是第一个被表达的类链,但很快就被本身所替代。在链途径中,先表达和,随后被和替代。对成人来说,血红蛋白中97%是22的形式,2%是22,并有1%还保持婴儿期的22形式。 把球蛋白肽链分为类链和类键,反映了基因的组织。每一类球蛋白都由一条单独的基因簇编码。高等灵长类动物的这两个基因簇的结构如图23.2所示。 基因簇长度大于50kb,包括5个功能性基因(、2个、和)和一个假基因()。两个基因此编码的序列只相差一个氨基酸,其中G型在136位上是甘氨酸,而A型在该位置是丙氨酸。 更为紧凑的基因簇知度大于28kb,包含1个有活性的基因,1个参假基因,2个基因,2个假基因和一个未知功能的基因。两个基因编码1个相同的蛋白质。两个(或两个以上)相同的基因出现在同一条染色体上,称为非等位拷贝。
9
4.2 Gene clusters are formed by duplication and divergence
图4.2 脊椎动物中发现的由b-珠蛋白基因和假基因组成的基因族。七个老鼠基因包括2个早期胚胎基因,1个晚期胚胎基因和2个成年基因以及2个假基因。兔和鸡均有四个基因。A similar general organization is found in other vertebrate globin gene clusters, but details of the types, numbers, and order of genes all vary. A location that has a pseudogene in one species may have an active gene in another; for example, of the higher primates lies at a position equivalent to an active embryonic gene in goat. Some examples of -globin clusters are illustrated in Figure 4.2. 功能性基因通过其在RNA中的表达,并最终是通过所编码的蛋白质来确定4的。这样,假基因是通过其不能编码蛋白质而确定的。某些情况下,一个基因并不能很快地被分析某一类中。当我们认为簇的结构已被确定了之后,又在其一侧发现了基因。若认为它是一个假基因似乎也没什么问题,但也许我们还未发现其蛋白产物。因此,它的功能还有待进一步确定。 在其它脊椎动物中也发现类似的球蛋白基因簇,但关于其基因的类型、数目及顺序。等细节都与上述的不同。在一个物种中的假基因位置上,在另一物种中可能是一个有活性的基因。例如,高等灵长类的基因在山羊的胚胎中对应着一个有活性的胚胎期基因。关于基因簇的一些例子如图23.3所示。 由这些基因簇的特征可得出一个有普遍意义的重要结论,即在一个基因家族中可能有所基基蛋白质分析而得到的更多的成员,包括功能性的和非功能性的。多余的功能性基因可能是编码同一肽链的副本,或与已知蛋白质有关,但又与它们不同(可能只是短暂地或少量表达)。考虑到这些特征,我们很难确认一个已确定基因簇的全体成员,除非对该段两侧的区域也进行彻底的分析,而不是仅局限于可最终表达的成员。 关于需要多少DNA来编码一特定功能的问题,我们可借鉴在哺乳动物中,编码类球蛋白需要20~50kb。这比我们仅仅分析已知的球蛋白或考虑各个单独的基因所推想得到的要大得多。基因簇所在区域似乎只编码球蛋,但随着已知越来越多的基历或基因簇编同一特定蛋白,我们很难判断在多大程度上会发生这种情况。 Figure 4.2 Clusters of b-globin genes and pseudogenes are found in vertebrates. Seven mouse genes include 2 early embryonic, 1 late embryonic, 2 adult genes, and 2 pseudogenes. Rabbit and chick each have four genes.
10
4.2 Gene clusters are formed by duplication and divergence
图4.3 所有的珠蛋白基因均从一单个的远古基因经由重复,转位和突变进化而来。 From the organization of globin genes in a variety of species, we should be able to trace the evolution of present globin gene clusters from a single ancestral globin gene. Our present view of the evolutionary descent is pictured in Figure 4.3. 基因簇不断进行重组织 从不同哺乳动物的球蛋白基因簇的差异来看,我可以推断出(有时候)伴随着突变的复制是每个基因簇在进化中的重要特征。人类地中海贫血症中的基因缺失表明这两个球蛋白基因簇不断发生着不对等交换。而发生一次,便产生一次重复和缺失,而且我们必须考虑在群体中对这两个重组位点的命运。缺失也可能在同一染色体上的同源序列之间进行重组时发生(在理论上)。但这种情况并不产生相应的重复。 很难估计以上这些情况发生的自然频率,因为自然选择会很快调整突变基因簇在群体中的水平。在发生不对等交换的可能性与基因间的关系可能存在着粗略的相关性,即基因间(包括外显子和内含子)关系越密切,发生误配的机会就越多。(但是,有些不对等重组并不牵涉基因本身,而是依赖于附近的重复序列。) 通常基因数的减少很可能是有害的,并且会被自然淘汰。然而,在某些群体中存在一种与之平衡的优势,可能使缺失形式维持在较低步骤。 基因数扩增将产生什么结果?已确定的仅有的例子是三重位点及反(anti-Lepore)。具有5个球蛋白(1个正常位点和1个三重位点)的个体在合成血红蛋白时不显示任何变化。然而基因数进一步增加(对于三重位点的纯合子)可能就是有害的,因为其产生了过多的肽链而使球蛋白合成失衡。具有反(anti-Lepore)的个体在正常的和基因以外又加了一个融合的基因,增加的肽链可能是有害的,因为它干扰了正常血红蛋白的组装。 这些特定的导致基因数的变化未必具有使之可在种群中传播的自然选择性优势。但是现有人类基因簇的结构中存在的一些重复表明这种机理的重要性。功能性序列包括编码同一蛋白质的2个基因,联系相当密切的和基因,以及2个几乎相同的基因。这些较为新近的相互独立的重复已在种群中延续下来,更不用说那些最初产生各种球蛋白基因类型的更为古老的重复了。其它的重复可能已变为假基因或消亡了。我们设想不断的重复和缺失是所有基因簇的特征。 通过不同物种球蛋白基因的组织形式,我们可以将现在球蛋白基因的进化追溯到一个祖先球蛋白基因。我们现有的关于进化过程的见解如图23.7所示。 Figure 4.3 All globin genes have evolved by a series of duplications, transpositions, and mutations from a single ancestral gene.
11
4.2 Gene clusters are formed by duplication and divergence
在球蛋白基因有关的植物中的长血红蛋白可能代表一种祖先形式。它有一个额外的内含子,分割了血红素结合功能域,正如我们在图22.21中所见。我们始终不知道多余的内含子是插入到植物中的,还是在进化中从其它基因系中消失的。 我们对球蛋白基因的现代形式所能做的最远的追溯是哺乳动物肌红蛋白的那单个肽链的序列,它是大约8亿年前从球蛋白基因系中分化出来的。肌红蛋白基因有与球蛋白基因相同的组织形式,所以我们可以用有3个外显子的结构代表它们的共同祖先。 某种原始鱼类“只有一种球蛋白肽链,所以它们一定是在祖行对球蛋白基因被复制而产生和两种变异以前从进化系列中分化出来的。这似乎发生在大约5亿年前,正值硬骨鱼类的进化时期。 在蛙(X.Laevis)中的球蛋白基因代表接下来的进化阶段,它有2个球蛋折基因簇。然而无论是在幼体还是在成体中,每一基因簇既包括基因又包括基因。因此这个基因簇一定是从连接着的-对的复制进化而来,随后单个的拷贝分离开来,所以整个基因簇又被复制。 两栖动物大约3亿5千万年前从哺乳动物/鸟类一系中分化出来,所以和球蛋白基因的分离一定是在这时期以后哺乳动物/鸟类的祖先发生基因移位的结果。这大约发生在脊椎动物进化的早期。既然在鸟类和哺乳动物中有独立的和球蛋白的基因簇,那么和基因一定是在哺乳动物和鸟类从它们共同祖先分化以前就在物理上分开了,这大约发生在2亿7千万年前。 在更近的时期,和基因簇内部分别发生变化,正如我们以后,将在图23.9中看到的单个基因的分化。 Figure 4.3 All globin genes have evolved by a series of duplications, transpositions, and mutations from a single ancestral gene.
12
4.3 Sequence divergence is the basis for the evolutionary clock
Divergence is the percent difference in nucleotide sequence between two related DNA sequences or in amino acid sequences between two proteins. Evolutionary clock is defined by the rate at which mutations accumulate in a given gene. Replacement sites in a gene are those at which mutations alter the amino acid that is coded. Divergence: Divergence index,趋异指数。指两个DNA序列之间或两个蛋白质序列之间差异的百分数。 Evolutionary clock:进化钟。指在一个给定的基因中,其突变累积的速度。 Replacement sites:置换位点。指一个基因由于其突变而改变了被编码的氨基酸的位点。 序列分化是进化钟的基础 蛋白质序列的大多数改变都是随着时间的推移,由逐渐积累的突变最终形成的。点突变、小片断插入和删除随机产生,除了在一些突变发生的热点有较高的几率外,可能或多或少的在整个基因组中都有着相同的机会。大多数导致氨基酸序列改变的突变都是可删除性的,可由自然选择消除。 尽管只有少数突变是有益的,但它们将在种群中蔓延,并最终取代之前的序列。当基因的一个新的变体代替了之前的版本,则称它固定在了种群中。 一个引起争议的话题是:在氨基酸序列中的中性突变占多大比例,所谓中性就是说,不影响蛋白质的功能,并由此可作为随机漂移和固定的积累结果。 由基因突变引起的改变在蛋白质中的积累速度是每个蛋白质的特征之一,也许在某些程度上依赖于蛋白质相对改变的适应性。在一个物种内,蛋白质随着基因突变引起的替换及之后此替换在单一交配库中的消除或固定而不断进化。在一个群体中两个或多个等位基因异变体的出现称作多态性。 一种多态性可以是稳定的,在这种情况下没有一种形式有相对更多的益处。多态性也可以是暂时的,一种形式必将取代另外一种。当我们仔细检查任何一个物种的基因库时,至能窥见顽强生存下来的突变体。 当一个物种分化成两个新物种时,每个新物种都构成了一个进化上独立的基因库。比较两个新物种的某个相应蛋白质时我们发现,自从它们的祖先停止杂交开始,二者间的差异就开始不断积累。有些蛋白是高度保守的,在种与种之间,只呈现出很小甚至根本没有改变。这表明几乎所有改变都是有害的,并且因此被选择所淘汰。 两种蛋白间的差别用序列差异百分率来表示,也及序列中同一位置上不同aa所占的百分比。蛋白之间的此比率与相应核酸序列上的此比率可以不尽相同。产生这种差异的原因是由于一个aa由三个碱基编码,而第三个碱基通常不影响编码含义。 我们可以将编码区的核酸序列分为潜在置换位点与沉默位点: l 在置换位点上发生的突变将改变其编码的aa。突变的影响(有害的、中性的和有益的)取决于aa置换之后的结果。
13
4.3 Sequence divergence is the basis for the evolutionary clock
图23.8 基于进化分离的DNA序列差异率。图中的每个点代表一个配对比较。 图4.4 DNA序列的区别依赖与进化的间隔期。图中每个点代表一个碱基对的对比。By comparing the sequences of homologous genes in different species, the rate of divergence at both replacement and silent sites can be determined, as plotted in Figure 4.4. 在沉默位点发生的突变只是由一个同义编码代替了另一个,所以蛋白质不发生变化。通常编码序列的75%为置换位点,25%为沉默位点。 除编码区外,基因还含有非翻译区。这里发生的突变也是潜在中性的,如果不考虑其与蛋白质二级结构或(通常很短的)调控信号的影响的话。 尽管沉默突变对于蛋白来说是中性的,他们可通过改变RNA序列来影响基因表达。例如,二级结构发生的改变可以影响转录、加工或翻译。另一种可能形式在同义码上发生的改变将导致另一种tRNA做出回应,从而影响翻译的效率。 在置换位点发生的突变应与aa序列差异百分率相对应。如在置换位点的差异率为0.45%的核酸,对应的aa差异率为1%(假设每个密码子的平均置换位点数为2.25)。事实上,实测的差异率要小于进化中发生的差异,这是由一个密码上发生多次变化所造成的。通常纠错会导致此现象的发生。 以人类β和δ球蛋白链为例,146个残基中有10个不同,序列差异率6.9%;相应DNA序列中441个残基有31个不同。尽管如此,变异在置换位点和沉默位点上的分配十分不同。在330个置换位点上11个发生了变异,而111个沉默位点却有20个发生了改变。这是置换位点的差异率为3.7%,而沉默位点却为32%,几乎差了一个数量级。 这种巨大的差异表明:对于影响蛋白组成的核酸位点存在着更多的限制。这样看来,可能只有极少的aa改变是中性的。 如果我们用发生在沉默位点的突变率来表示由突变引起的固定的潜在突变速率(这样也就是假设在沉默位点根本不发生选择),则从β和δ基因开始分化的那一刻起,330个置换位点中有32%总共105个曾经发生过改变。其中大约有11个被消除了,这表明有约90%的突变没有存活。 任何一对球蛋白序列的差异率都或多或少的与它们分离的时间成比例。这提供了一个进化钟,由于衡量一个已知蛋白在进化过程中突变的匀速积累。 分化速率可用差异百分率/百万年来表示,也可用其对数——进化期单位(UEP)来表示,UEP为在一百万年里差异率变化1%所用的时间。 在配对表较中发现,从约八千五百万年前哺乳辐射开始分化的哺乳动物中的α或β球蛋白基因的置换位点有平均10%的差异率,这对应于置换位点差异率变化率的0.2%/百万年。 再远一点,我们也可比较同一物种的α和β球蛋白基因。它们在≧5亿年前由一个基因开始分化(见图23.7)。其平均置换位点差异率为50%,变化率为0.1%/百万年。 这些数据在图23.8中绘出,从中看出球蛋白基因的置换位点差异率有约0.096%/百万年(UEP=10.4)的变化率。考虑到估计物种分化时间时的不确定性,这个结果对线性进化钟的提法给出了有利的支持。 Figure 4.4 Divergence of DNA sequences depends on evolutionary separation. Each point on the graph represents a pairwise comparison.
14
4.3 Sequence divergence is the basis for the evolutionary clock
Figure 4.5 Replacement site divergences between pairs of b-globin genes allow the history of the human cluster to be reconstructed. This tree accounts for the separation of classes of globin genes. 图4.5 碱基对位置变化揭示人珠蛋白基因基因簇的形成历史。图中进化树代表珠蛋白基因各成员之间的间隔时间的长短。 An evolutionary tree for the human globin genes is constructed in Figure 4.5. Features that evolved before the mammalian radiationsuch as the separation of / from should be found in all mammals. Features that evolved afterwardsuch as the separation of - and -globin genesshould be found in individual lines of mammals. 沉默位点差异率的数据线性稍差。对于每个研究对象, 沉默位点差异率都远大于置换位点差异率,相差倍数2-4不等,而且在配对比较中沉默位点差异率的分散程度太大,以至于我们不得不怀疑进化钟能否对其应用。 从图23.8中可以清楚的看出,沉默位点变化率并非线性。 如果我们假设在分离0年必须为0差异率,则看出沉默位点差异率在分离的前~1亿年有较高的变化率。对此的一个解释是有大约一半的沉默位点在一亿年内被突变所饱和;这部分位点都表现为中性。另一部分则较缓慢的积累突变,其变化率于置换位点变化率大致相同;这一部分位点对蛋白质来说是沉默位点,但是由于某些原因受选择压的控制。 至此,我们可以由对差异率变化率的计算倒推一个物种内基因的分离时间。人类在β和δ基因置换位点的差异率为3.7%,若UEP等于10.4,则这些基因必然在10.4×3.7≈4千万年前开始分化——这个时间也恰是新世界猴(New World Monkey)、旧世界猴、大猩猩和人类从同一品系开始分化的时间。所有这些高等灵长类动物都具有β和δ基因,这表明基因分化在此进化点之前不久才开始分化。 再往远说,γ和ε基因置换位点的差异率为10%,则分化时间在大约1亿年前。胚胎球蛋白基因和成年球蛋白基因的分离则在灵长类辐射分化之前或与之一同发生。 图23.9给出了人类球蛋白基因的进化树。在哺乳类辐射分化之前进化而成的特点——如β/δ和γ的分离——可在所有哺乳动物中发现。之后进化成的特点——如β和α的分离——则在哺乳类中的个别物种中发现。 在任意物种中,基因簇都由一些相对较近发生的结构改变,因为我们可在基因数(人有1个成年β球蛋白基因大鼠有2个)或基因类型(我们还不知道家兔和大鼠中的类β球蛋白基因是否有胚胎和成年之分)发现差别。 当关于某一特别基因序列的数据收集充分后,此论点可被逆向运用,同物种同基因间的比较也可以用于评估分类关系。
15
4.4 Pseudogenes are dead ends of evolution
Processed pseudogene is an inactive gene copy that lacks introns, contrasted with the interrupted structure of the active gene. Such genes presumably originate by reverse transcription of mRNA and insertion of a duplex copy into the genome. 图16.19 假基因可在由RNA向DNA的反转录过程中产生并整合到基因组中。 假基因是进化的死端 所谓假基因,是指它们具有与功能基因相类似的序列,却并不能被翻译表达为功能蛋白,常用符号Ψ来表示。 一个假基因与功能基因有看似相同的整体结构,也含有与内含子和外显子相对应的序列。它们由于具有阻碍基因表达的某个或所有阶段的突变而失活。改变的形式有很多种:如破坏转录启示信号,在外显子-内含子连接处阻碍剪接,或是使翻译提前终止。 通常一个假基因含多个有害突变,这可能是由于一旦其失去活性,对于突变的进一步积累就没有妨碍了。在很多系统中却发现了一些现在有活性基因的失活态假基因,包括球蛋白、免疫球蛋白及组织相容性抗原。它们通常位于基因簇附近,散布在活性基因间。 一个典型的例子是家兔假基因Ψβ2,有外显子、内含子的正常组织形式,与功能球蛋白β1基因十分相似,但是在Ψβ2第20个密码子上的一对碱基的删除导致了读框易位,并使终止提前。之后的密码子中发生了几个点突变,而这些密码子又代表了在球蛋白中高度保守的aa。两个内含子都不再具有可辨别的边界,所以即使基因能被转录也难以将内含子剪切掉。但这也只是个假设,因为对此基因是没有转录产物存在的,可能是在5’侧翼区发生了突变。 由于以上列出的缺损包括了潜在妨碍基因表达所有阶段的突变,所以很难确定究竟是那一步最初导致基因失活。尽管如此,从假基因与功能基因的分化我们可以估计出假基因的起始和其突变开始积累的时间。 如果假基因从它由β1复制产生的那一刻起就失活的话,我们可以认为置换位点和沉默位点的差异变化率是相同的(只有在基因翻译导致产生对置换位点的选择压时它们才会不同)。但实际上在置换位点上发生的替换远少于沉默位点。这表明开始(当基因被表达时)对于置换位点的替换是存在选择性的。从两种位点上发生替换的相关程度,我们可以计算出Ψβ2在约五千五百万年前就开始分化,在之后的两千二百万年内一直保持为功能基因,但在之后的三千三百万年内成为假基因。 对其他假基因可作类似的计算。一些基因在成为假基因前还保持了一段时间的活性,而另一些从产生的最开始就是假基因。这些假基因在结构上的共同点是:在每个物种的球蛋白基因簇的进化发展中,这些基因都独立的进化。这支持了如下结论:新基因的产生及其被作为功能复制体的接受,成为功能基因的变异或成为假基因的失活,时在基因簇中不断进行的连续过程。
16
4.4 Pseudogenes are dead ends of evolution
图16.19 假基因可在由RNA向DNA的反转录过程中产生并整合到基因组中。 Inactive genomic sequences that resemble the RNA transcript are called processed pseudogenes. They originate by insertion at some random site of a product derived from the RNA, following a retrotransposition event, as discussed in 16 Retroviruses and retroposons. Their characteristic features are summarized in Figure 大鼠Ψα3基因具有一个有趣的特性:它十分精确的缺少所有两个内含子。其序列可由α球蛋白基因mRNA获得(考虑积累的突变)。表面上失活的时间与原始复制的时间巧合,这表明最初的失活时间育内含子的丢失有关。为什么内含子会丢失呢?也许是由于烦转录病毒(见19章)将一个mRNA的反转录产物插入至基因组中,与RNA转录产物相似的失活基因组序列称为已加工假基因。它们由RNA产物上随机插入核酸片段并跟随一反转录转座事件而得。它们的特点列于图19.17。 假基因的出现有多频繁?很多基因家族都含有假基因成员。通常假基因只占总基因数的很小一部分。但也有一个例外:对一个编码大鼠核糖体蛋白的活性基因,竟存在约15个已加工假基因相似物。当我们试图从杂交数据计算基因数时,就需要将这种影响考虑在内。 如果假基因为进化死端,仅仅是功能基因重排产生的一个多余的伴随物的话,它们为什么还会出现在基因组中?它们是否完成了某种功能,还是完全没有用处(这样它们的保留就不存在选择压了)? 我们应该还记得之前看过在现有群体中存在的这样的基因。在以前,假基因都可以被消除。这种消除可以以多种形式发生:如偶然的被删除,或由于突变的不断积累导致最终假基因不再被其原始序列家族所识别(这可能是很多没被突然删除的假基因的最终宿命)。 甚至连所谓的进化遗迹都能被复制。在山羊β球蛋白基因中有两种成年型:βA和βC。每一种都在上游含有一个几kb的假基因(分别称为Ψβz和Ψβx)。两个假基因之间的联系较之与成年β球蛋白基因的联系更为紧密,特别是它们还共有几个相同的失活突变。同样的,两种成年β球蛋白基因之间的联系也比至于假基因的联系要紧密。这种现象暗示着一个原始的Ψβ-β结构自身也在进行着复制,得到两个功能β基因(进一步分化为βA和βC)和两个无功能基因(分化成如今的假基因)。 负责基因复制、删除和重排的机制作用于一个基因簇所识别的所有成员序列上,无论其有功能与否。之后由选择来对产物进行辨别。 Figure Pseudogenes could arise by reverse transcription of RNA to give duplex DNAs that become integrated into the genome.
17
4.5 Unequal crossing-over rearranges gene clusters
Thalassemia is disease of red blood cells resulting from lack of either a or b globin. Unequal crossing-over describes a recombination event in which the two recombining sites lie at nonidentical locations in the two parental DNA molecules.
18
4.5 Unequal crossing-over rearranges gene clusters
图4.2 脊椎动物中发现的由b-珠蛋白基因和假基因组成的基因族。七个老鼠基因包括2个早期胚胎基因,1个晚期胚胎基因和2个成年基因以及2个假基因。兔和鸡均有四个基因。 There are frequent opportunities for rearrangement in a cluster of related or identical genes. We can see the results by comparing the mammalian clusters included in Figure 4.2. Although the clusters serve the same function, and all have the same general organization, each is different in size, there is variation in the total number and types of -globin genes, and the numbers and structures of pseudogenes are different. All of these changes must have occurred since the mammalian radiation, ~85 million years ago (the last point in evolution common to all the mammals). Figure 4.2 Clusters of b-globin genes and pseudogenes are found in vertebrates. Seven mouse genes include 2 early embryonic, 1 late embryonic, 2 adult genes, and 2 pseudogenes. Rabbit and chick each have four genes.
19
4.5 Unequal crossing-over rearranges gene clusters
Figure 4.6 Gene number can be changed by unequal crossing-over. If gene 1 of one chromosome pairs with gene 2 of the other chromosome, the other gene copies are excluded from pairing, as indicated by the extruded loops. Recombination between the mispaired genes produces one chromosome with a single (recombinant) copy of the gene and one chromosome with three copies of the gene (one from each parent and one recombinant). 图4.6 基因的数量可以通过非等同交叉来改变。如图被丢失的loops所揭示,当某个染色体上的基因1和另一染色体上的基因2发生非等同交叉后,其他的基因拷贝就在配对的过程中丢失。错误配对的基因之间的重组产生一个染色体上带一个(重组)基因拷贝而另一染色体上带三个拷贝的基因(来自各亲本一个和一个重组体)。 A gene cluster can expand or contract by unequal crossing-over, when recombination occurs between nonallelic genes, as illustrated in Figure 4.6. Usually, recombination involves corresponding sequences of DNA held in exact alignment between the two homologous chromosomes. However, when there are two copies of a gene on each chromosome, an occasional misalignment allows pairing between them. (This requires some of the adjacent regions to go unpaired.) 不对等交换使基因簇重排 一基因簇中相关的或相同的基因发生重排的机会是很频繁的。我们可以比较总结在图23.2和23.3中的哺乳动物的基因簇。尽管这些基因簇功能相同,且有共同的一般组织规律,但其大小、球蛋白基因数和类型以及假基因数和结构却各不相同。所有这些改变一定是自从8500万单步哺乳类动物发展的大爆炸以来发生的(这最后一个观点在哺乳动物的进化中是普遍适用的)。 从以上比较可得到一普遍规律,即在进化中基因的复制、重排和变异与单个基因点突变的累积效果同等重要。何种类型的机理可以解释基因的重排呢? 当重组发生在非等位基因之间时,通过不对等交换,一个基因簇可能延长或收缩,如图23.4所示。通常,重组发生在同源染色体上恰好对应的DNA序列之间。但是当两条染色体上都有一个基因的两份拷贝时,偶尔发生的误排也会使它们之间配对。(这需要部分邻近区域使之解开配对。) 当重组发生在误配的基因拷贝之间时,将会产生一对非交互的重组染色体,其中一个含有2份该基因拷贝,而另一个则没有。因此重组后,对第一个来说,基因拷贝数从2增至3,而对第2个来说是从2减至1。 在这个例子中,我们考虑的是非对应的基因拷贝1和2,但却视它们为完全同源性。然而当相邻基因关系密切时,也会发生2对等交换(尽管这种可能小于当它们是相同基因时的情况)。 发生不对等交换的一个障碍在于不连续的基因结构。例如球蛋白基因中虽然相邻基因拷贝的对应外显子之间很可能因关系密切而发生配对,但各个内含子的序列却有显著的差异。外显子间配对的限制,大大缩短了可以继续发生重排的DNA的长度,这便减小了不对等交换的机会。通过阻碍不对等交换,内含子之间的这种差异增强了基因簇的稳定性。
20
4.5 Unequal crossing-over rearranges gene clusters
Figure 4.7 summarizes the deletions that cause the -thalassemias. -thal-1 deletions are long, varying in the location of the left end, with the positions of the right ends located beyond the known genes. They eliminate both the genes. The -thal-2 deletions are short and eliminate only one of the two genes. The L form removes 4.2 kb of DNA, including the 2 gene. It probably results from unequal crossing-over, because the ends of the deletion lie in homologous regions, just to the right of the and 2 genes, respectively. The R form results from the removal of exactly 3.7 kb of DNA, the precise distance between the 1 and 2 genes. It appears to have been generated by unequal crossing-over between the 1 and 2 genes themselves. This is precisely the situation depicted in Figure 4.6. 地中海贫血症是由突变所致的或球蛋白合成减小或受阻造成的。某些地中 贫血症的本质揭示了在人类对蛋白基因簇中发生的不对等交换。 许多严重的地中海贫血症是因为基因簇中的某一段缺失所致。至少在某些情况中,缺失的结果位于同源性的区域中,而这正是可能由2对等交换而产生的后果。 在-地中满贫血症中有2种普遍的缺失类型。-地中海-1型缺少将2个基因都消除了,-地中海-2型缺失只消除其中的一个基因。其名称指明了存在缺失的单个染色体。根据地中海贫血症的二倍体染色体的组合情况,一个得病的个体可能有0至3个肽链。野生型的(有4个基因)个体与有3个或2个基因的个体之间差异很小。若只有1个基因,则多余的链就会形成异常的四聚体 ,这将造成HbH。基因的完全缺失将引起胎儿水肿,造成在胎儿期或出生时死亡。 图23.5总结了各种引起-地中海症的缺失。其中-地中海-1型缺失较长,其左端的位置名不相同,而右端都超过了已知的基因。-地中海-2型缺失较短。其中L型消除了包括2基因在内的4.2kb的DNA。这很可能是不对等交换造成的,因为缺失的两端位于同源性的区域中,恰好分别在和2的右侧。而R型是由于消除季DNA中的3.7kb,这恰好是1基因与2基因之间的距离。这似乎是因为在1与2基因自身之间发季了2对等交换造成的。这正是在图23.4中描述的情形。 造成了地中海贫血症染色体的不对等交换,也应造成了一个有3个基因的染色体。在几个种群中已发现了具有此类染色体的个体。在其中一些群体中,发现3个基因位点的频率与发现1个基因位点的相同;而另一些群体中,有3个基因的情况远不如有1个基斩 情况普遍。这意味着一些(未知的)选择性因子操纵着在不同群体中调节基因水平。 Figure 4.7 Thalassemias result from various deletions in the a-globin gene cluster.
21
4.5 Unequal crossing-over rearranges gene clusters
图4.8 b-珠蛋白基因簇的缺失也引起不同类型的地中海贫血症。 The deletions that cause -thalassemias are summarized in Figure 4.8. In some (rare) cases, only the gene is affected. These have a deletion of 600 bp, extending from the second intron through the 3 flanking regions. In the other cases, more than one gene of the cluster is affected. Many of the deletions are very long, extending from the 5 end indicated on the map for >50 kb toward the right. 我们发现基因数的变异相对较频繁,这证明在该基因簇中发生不对等交换是相当普遍。基因簇中比基因簇发生得更频繁,可能是因为基因中的内含子短小得多,这样便减少了在非同源性基因之间发生误配的阻碍。 在图23.6中总结了造成-地中海贫血的缺失类型。在一些情况(罕见)下,只有基因病变。其中从第二个内含子至3’侧区域的共600bp被消除。另一些情况下,簇中不只一个基因病变。很多这种缺失都很长,从图谱中的5’端向右延伸大于50kb。 (Hb Lepore)提供了相邻基因发生不对等交换可造成缺失的经典证据。基因和基因在序列上仅有7%不同。不对待重组 它们之间的物质,使它们融合在一起(见图23.4)。融合后的基因产生一条类链,由位于N端的序列与位于C端的序列连接而成。 现在已知几种(Hb……)的类型,其不同之处在于由序列变为序列的位点。这样,当和基因进行不对等交换而配对时,那么发生重组的位点便决定了氨基酸链中在何中由序列变为序列。 由于找到了反(Hb……)的形式而发现了这种情况的交换性。它是由N端为且C端为的基因产生的。融合的基因位于正常基因与基因之间。 由对另一种融合的球蛋白(Hb kenya)的鉴定,提供了在关系较远的基因间可发生不对等交换的证据。它包含位于N端的基因和位于C端的基因。这种融合应该帅序列相差20%的与基因发生不对等交换造成的。 许多种缺失会阻碍和的合成,只产生两种表型中的一种。在HPFH(胎儿血红蛋白遗传持续性)中,通常没有临床症状。该病症的减轻是因为在发育期中通常应停止的胎儿对球蛋白( )的合成还在继续。对于型地中海贫血症,就会出现贫血症状。因为尽管在成长期基因仍继续表达,但又如在HPFH中那样有效。HPFH与型地中海贫血症的不同可能依赖中基因簇中调控序列的缺失,而又是与基因本身。 Figure 4.8 Deletions in the b-globin gene cluster cause several types of thalassemia.
22
4.6 Genes for rRNA form tandem repeats
Nontranscribed spacer is the region between transcription units in a tandem gene cluster. Nucleolar organizer is the region of a chromosome carrying genes coding for rRNA. Nucleolus is a discrete region of the nucleus created by the transcription of rRNA genes. 图4.9 一个串联基因簇是由可转录单位和非转录间隔区的交替连接所形成,它能产生一个环状限制性图谱。 编码rRNA的基因组成重复串联单位 就目前我们所讨论过的大多数例子来看,在允许选择压独立作用的一个基因簇的单独成员之间是存在差别的。两个含有相同基因的多个相同拷贝的大基因簇提供了一个对比:大多数生物含有组蛋白基因的多个拷贝,只有很少的生物体不含编码rRNA的多个拷贝。而这个情况提出了几个有趣的进化方面的问题。 rRNA是转录的最主要产物,在真核和原核生物中其质量都占细胞总RNA的80-90%。一个核糖体也有若干tRNA分子,但它们比rRNA要小得多。rRNA和tRNA都由多个基因编码。 主要rRNA基因的数量在大肠杆菌中为7,低等真核生物中为 ,高等生物中有好几百。在几乎所有情况下,代表大小rRNA的基因组成一个串联对(唯一的例外出现在酵母线粒体中)。 在细菌和一些低等真核生物中,5SRNA基因也是此种单位的一部分,所以5S基因的总数量与主要rRNA相等。在细菌中,5SRNA基因与主要rRNA基因共转录;在真核生物中则独立转录。在高等真核生物中,5SRNA基因分散的排列于其自身的基因簇内,其数量也比主要rRNA基因要多。 tRNA的准确数目很难确定,由于在杂交反应中其分子二级结构造成了许多技术困难。也许我们低估了实际数量,但通常在高等真核基因组中有几百个rRNA基因。 rRNA分子序列中缺少可探测的变异,这暗示着每个基因的所有拷贝都必须是相同的,或差别至少低于rRNA的可探测水平(~1%)。一个引起兴趣的问题是:是什么机制使变异不在单独序列中积累?
23
4.6 Genes for rRNA form tandem repeats
Figure 4.9 A tandem gene cluster has an alternation of transcription unit and nontranscribed spacer and generates a circular restriction map. 图4.9 一个串联基因簇是由可转录单位和非转录间隔区的交替连接所形成,它能产生一个环状限制性图谱。 In bacteria, the multiple rRNA gene pairs are dispersed. In most eukaryotic nuclei, the rRNA genes are contained in a tandem cluster or clusters. Sometimes these regions are called rDNA. (In some cases, the proportion of rDNA in the total DNA, together with its atypical base composition, is great enough to allow its isolation as a separate fraction directly from sheared genomic DNA.) An important diagnostic feature of a tandem cluster is that it generates a circular restriction map, as shown in Figure 4.9. 在细菌中,多种的16S-23SRNA基因对分散分布。在大多数真核生物核中,rRNA基因含在一个或多个串联簇内。有时这些区域称为rDNA(有些情况下,rDNA与其不规则的碱基组成在总DNA中所占的比例,大到能直接从剪切的基因组DNA中作为一个单独部分分离出来)。串联基因簇的一个重要判断特征是其能产生一个环状限制图谱,如图23.10。 图 一个串联基因簇具有转录单位和非转录间隔的交替结构,并产生一个环状限制图谱 假设每个重复单位由3个限制性位点。在图示例3中,片段A和B整个包含在一个重复单位内,片段C则包含一个重复的末端和下一个重复的开端。当我们用传统的方法对这些片段作图示发现,A与B相邻,B与C相邻,C与A相邻,成为环状图谱。如果基因簇很大,内部片段(A、B、C)的量比连接基因簇与相邻DNA的末端片段(X、Y)的量要大得多。在一个含有100个重复的基因簇中,XY的量只占A、B、C量的1%。这是对基因簇末端作图变得很困难。
24
4.6 Genes for rRNA form tandem repeats
Figure 4.10 The nucleolar core identifies rDNA under transcription, and the surrounding granular cortex consists of assembling ribosomal subunits. This thin section shows the nucleolus of the newt Notopthalmus viridescens. Photograph kindly provided by Oscar Miller. 图4.10 核仁中心等同于未转录的rDNA,周围的颗粒皮质由聚集的核糖体亚基组成。图中显示蝾螈脊背绿色的细胞核仁。 The region of the nucleus where rRNA synthesis occurs has a characteristic appearance, with a core of fibrillar nature surrounded by a granular cortex. The fibrillar core is where the rRNA is transcribed from the DNA template; and the granular cortex is formed by the ribonucleoprotein particles into which the rRNA is assembled. The whole area is called the nucleolus. Its characteristic morphology is evident in Figure 4.10. 合成rRNA的核酸区域具有特征外形,又一个纤丝状核,周围包围着颗粒状皮层。纤丝装核是rRNA转录位点,颗粒状皮层是由rRNA装配所在的核糖核酸蛋白质颗粒组成的。整个区域称为核仁。其特征形态见图23.11。 图23.11 核仁核为rRNA转录位点,周围颗粒状皮层是由正在装配rRNA的核糖体亚单位组成。此超薄切片为蝾螈(N.viridescens)的核 与核仁相联系的特殊染色体区域称为核仁组织者。每个核仁组织者都对应一条染色体上的一个串联重复rRNA基因簇。串联重复rRNA基因簇与其密集的转录产物的集中,是形成核仁特征形态的原因之一。
25
4.6 Genes for rRNA form tandem repeats
图4.11 rDNA簇的转录产生一系列基质,每个基质对应一个转录单位并且被非转录的间隔区所隔离。 The pair of major rRNAs is transcribed as a single precursor in both bacteria and eukaryotic nuclei. Following transcription, the precursor is cleaved to release the individual rRNA molecules. The transcription unit is shortest in bacteria and is longest in mammals (where it is known as 45S RNA, according to its rate of sedimentation). An rDNA cluster contains many transcription units, each separated from the next by a nontranscribed spacer. The alternation of transcription unit and nontranscribed spacer can be seen directly in electron micrographs. The example shown in Figure 4.11 is taken from the newt N. viridescens, in which each transcription unit is intensively expressed, so that many RNA polymerases are simultaneously engaged in transcription on one repeating unit. The polymerases are so closely packed that the RNA transcripts form a characteristic matrix displaying increasing length along the transcription unit. 一对主要rRNA在细菌核真核生物的核中最为一个单一前体被转录之后,前体被切断以释放单独rRNA分子。此基因组织的显著特种在图23.12中给与描述。转录由一5’前导区开始,接下来是一段小rRNA,之后的区域称为转录间隔,最后是一段大rRNA。因此转录单位的长度大于成熟mRNA的加和长度。 (转录间隔不可和分割转录单位的非转录间隔相混淆。从名字上可知,转录间隔是转录单位的一部分,但不出现在成熟mRNA产物中。回忆图12.49中所示的单一rRNA初级转录产物被切割为成熟rRNA的模式。) 细菌中的转录单位最短,其中rRNA序列占总长度(6kb)的80%。转录产物长在7-8kb的真核生物中,没有特别的系统模式,其中有70-80%的序列代表rRNA。哺乳动物中的前体最长。这里成熟rRNA序列只稍长于整个转录产物长度的50%。 一个rDNA基因簇含有多个转录单位,之间由非转录间隔分开。转录单位的间隔和非转录间隔可直接由电镜观察。图23.13所示为蝾螈,每个转录单位都大量的表达,所以可以看见在一个重复单位上同时有很多RNA。正在加长产物的聚合酶紧密的挤在一起,形成一个沿着转录单位移动的特征基质。 Figure 4.11 Transcription of rDNA clusters generates a series of matrices, each corresponding to one transcription unit and separated from the next by the nontranscribed spacer. Photograph kindly provided by Oscar Miller.
26
4.7 The repeated genes for rRNA maintain constant sequence
图 X.laevis的rDNA非转录间隔具有影响其长度的内部重复结构。 图4.12 X. Laevis rDNA长度的变化主要是由于其非转录间隔区具有一个内部的重复结构。 The general nature of the nontranscribed spacer is illustrated by the example of X. laevis. Figure 4.12 illustrates the situation. Regions that are fixed in length alternate with regions that vary. Each of the three repetitious regions comprises a variable number of repeats of a rather short sequence. One type of repetitious region has repeats of a 97 bp sequence; the other, which occurs in two locations, has a repeating unit found in two forms, 60 bp and 81 bp long. The variation in the number of repeating units in the repetitious regions accounts for the overall variation in spacer length. 非转录间隔在种检和种内都相差很远。酵母只有很短的非转录间隔,但长度恒定。在黑腹果蝇中,重复单位不同拷贝的非转录间隔长度差异有2倍之多。在每一个例子里,所有的重复单位都表现为位于某一染色体上的一个单一串联基因簇(在黑腹果蝇的例子中,此为x染色体)。X染色体上的基因簇比y上的大,所以雌果蝇具有更多的rRNA基因。 在哺乳动物中,重复单位要大得多,含有约13kb的转录单位和约30kb的非转录间隔。通常,基因位于几个分散的基因簇上——在人和大鼠中分别位于第5和第6染色体。一个有趣的问题是:在一个单一基因簇中作用的纠错机制是如何确保rRNA稳定性的? 在一单一基因簇中,非转录间隔的长度差异与转录单位序列的保守性形成了对比。如果不管差异本身,则较长或较短的非转录间隔还保持同源性。这表明每个非转录间隔是内部重复的,所以长度的差异只是由重复的数量决定的。 非转录间隔的共同特性在X.laevis的例子中得以描述,见图23.14。长度固定的区域与不固定的区域交错排列。每三个重复区域包含数量不等的较短的重复。其中一类重复区域含有97bp的重复系列;另一类分布于两处,分别具有含60bp和81bp两种不同形式的重复单位。重复单位的数量差异是导致间隔长度不同的原因之一。 固定区域(位于单位起始处)之一在序列和长度上都独一无二。其他固定区则为组成不变的短序列,称为Bam岛(因为其通过BamHI限制性内切酶获得,故此得名)。从这种组织形式我们发现,基因簇的进化涉及启动子区域。 Figure 4.12 The nontranscribed spacer of X. laevis rDNA has an internally repetitious structure that is responsible for its variation in length.
27
4.8 Crossover fixation could maintain identical repeats
Concerted evolution describes the ability of two related genes to evolve together as though constituting a single locus. Crossover fixation refers to a possible consequence of unequal crossing-over that allows a mutation in one member of a tandem cluster to spread through the whole cluster (or to be eliminated). Gene conversion is the alteration of one strand of a heteroduplex DNA to make it complementary with the other strand at any position(s) where there were mispaired bases. Concerted evolution:共同进化。指两个相关的基因共同发展组成一个单独座位的能力。 Crossover fixation:交换固定。交换是指减数分裂过程中染色单体的同源DNA部分产生交换的现象。交换的结果会破坏原来在染色体上存在的基因连锁群从而产生新的遗传变异。 染色体上两个座位或基因之间出现交换的概率和数量分别表示交换单位和交换值。交换值可显示两个基因之间的距离,从而判断它们是否具有连锁关系。交换值高,表明两个基因之间距离远,发生交换的概率大;反之亦然。当然,由于干扰和染色体交叉的形成受环境因素影响,故交换值并不一定能很准确地反映基因之间的距离。交换值的上述性质可被用于制作遗传(基因)连锁图。 Gene conversion:基因转换。指异源双链DNA中的一条链发生改变,从而同在任何位置上有错配碱基的另一条链互补的现象。
28
4.8 Crossover fixation could maintain identical repeats
Figure 23.4 Group I introns have a common secondary structure that is formed by 9 base paired regions. The sequences of regions P4 and P7 are conserved, and identify the individual sequence elements P, Q, R, and S. P1 is created by pairing between the end of the left exon and the IGS of the intron; a region between P7 and P9 pairs with the 3' end of the intron. 图23.4 I组内涵子具有一个由9个碱基对区域形成的普通的二级结构。与独立的序列元素P, Q, R, S类似,P4和P7区域的序列是保守的。P1是由左边外显子的末端和内涵子的IGS(位于P7和P9之间包含内涵子3’末端)之间的碱基对组成。 Following the sort of event depicted in Figure 23.4, for example, the chromosome carrying a triple locus could suffer deletion of one of the genes. Of the two remaining genes, 1? represent the sequence of one of the original copies; only ? of the sequence of the other original copy has survived. Any mutation in the first region now exists in both genes and is subject to selective pressure. 不等交换的结果 在非重复性DNA 的一个区域,重组发生于两个同源染色体上的确切的相对位点上,产生相互的重组,重组的精确性是以两个双螺旋DNA 序列精确排列为基础的,我们知道不等交换常发生在外显子相关的基因的多拷贝区,即使其侧面和插入的序列可以不同(见23章),不等交换的发生是由于非多位基因的相对应外显子之间的错配引起的。 可以想象在前后串联的完全相同或几乎相同的重复单位区域有多大的机率发生错配。除了在重复串的端点区域之外,由于连续的重复序列之间紧密的联系,几乎不可能确定出正确的对应重复序列。 没一个序 由重复单位ab和端点x,y组成, 如果我们用黑色表示一条染色体, 而用彩色代表另一条染色体,则正确的多位序列的排列关系如下: xabababababababababababababababababay 但是一条染色体上任意一个ab序列都可以和另一条染色体上经一个ab 序列配对, 其中一种错配如下: 其配对区的稳定性并不比正确配对时差,虽然配对区的长度变小了,我们无法知道在重组之前,配对是如何开始的,但很可能是短的对应区域开始配对并且向两端伸展,如果配对在卫星DNA 处开始,则很可能参与配对的重复单位不能正确对应其重复序列中的互补区。
29
xababababababababababababababbababay
4.8 Crossover fixation could maintain identical repeats Figure 23.4 Group I introns have a common secondary structure that is formed by 9 base paired regions. The sequences of regions P4 and P7 are conserved, and identify the individual sequence elements P, Q, R, and S. P1 is created by pairing between the end of the left exon and the IGS of the intron; a region between P7 and P9 pairs with the 3' end of the intron. 现在假定重组发生在不对等的配对区域,则重组体将带有不同的重复单位数,其中一条染色体将变长而另一条染色体将变短。 xabababababababababababababababababay * ↓ xababababababababababababababababababababababababay + xababababababababababay 其中*表示交叉 如果这种交换事件经常发生,那么重复序列串就会不断地扩充和收缩。就是说,在同一种的不同个体的基因组中,卫星DNA串的大小也会不同,但可惜我们对于这种差别的程度的数据毫无掌握。 如果不等重组发生在重复单位的内部重复区,则有另外一种结果,在上面的例子中,两个重复序列簇错配时考虑到了每一个重复单位的位置,其重复单位彼此全对齐(in register)的,如同所看到的单独的ab重复单位与ab重复单位是相对应的。 但是假设重复单位中的a、b组分本身足可以进行配对,这时两个之间可以半对齐(half-register)排列,就是一个簇中的a序列与另一个簇中的b序列对齐,这种情况的发生频率取决于重复单位中两个一半的单位序列的相似关系,在小鼠卫星DNA 中,变性的卫星DNA链在体外变性重排时,通常以半对齐形式存在。 当一个重组事件发生时,那么反应涉及到的重复单位长度将发生变化。 xabababababababababababababababaababay xababababababababababababababbababay
30
4.8 Crossover fixation could maintain identical repeats
图4.13 非等同重组可以使一个颗粒性重复单元占据整个簇区。图中数值表示在各时期重复单元的长度。 在上面的重组簇中,一个”ab”单位被一个”aab”单位代替,在缩短的簇中,这个“ab”单位被一个“b”单位代替。这种重组可以解释小鼠卫星DNA 在进行限制性酶切时表现的特征,除了完整的重得单位种类以外,(见图25.8),还有几种弱的带,其长度为1/2、11/2、21/2三个重复单位,假定在前面的例子中“ab”代表着小鼠卫星DNA 中的234bp的重复单位,在b 片段中产生切割,则“a”“b”片段分别对应着117bp的1/2-重复序列。 4.8 Crossover fixation could maintain identical repeats Figure 4.13 Unequal recombination allows one particular repeating unit to occupy the entire cluster. The numbers indicate the length of the repeating unit at each stage. 在增长的重组簇中,“aab”单位产生了一个是通常重复序列长度11/2倍的片段,而在减短的重组簇中,“b”单位产生了一个通常长度1/2的片段,(半重复单位中的多聚片段的产生与整倍重复单位的多聚片段的产生途径相同,是由于重复单位中由于突变而丢失酶切点而造成的)。 从其他的方面形成论据,在胶上识别半重复单位种类的带,则证明了234bp的重复单位是由两个半重复单位组成的,它们之间有很大的联系,有时可在重复中配对,还可以看到如图25.8所示,还有一些对应着1/4、3/4间隔的很弱的带,其产生机制与上述的相同,当重组发生在两个簇对应排列成1/4对齐的情况时就产生1/4、3/4带,由于1/4-重复序列之间的联系小于1/2-重复序列,所以可以解释1/4、3/4带的发生频率小于1/2带。 交换固定可以保持完整相同的重复 通常假定卫星DNA 是没有高度选择压的序列(如果在任何情况下都成立)与编码蛋白质的序列不同,其序列的突变就会导致平均的??,而随体DNA 只要存在就具有其各种功能(而不是由于其上确的序列来决定其功能)。 这种假定对于那些由相近的重复单位构成的随体对对由完全相同的重复单位构成的随体复?合,突变的积累最后使随体推动了均匀的序列,但是如何解释在节目动物中存在着这种随体,其大部分分的重复序列是保持相同的呢?如果这个序列越重要,则要保持静止不变就越困难,因为任何一种选择都可能会影响任何一个拷贝。 用不多重组代替跳跃或复制来解释随体DNA 的进化,其基本是整京是不多交换频繁地主出现在任一位点,导致一个重复单位被吸收到整个随体中的一类随机事件,其过程叫作换固定。 一个特定的重复单位通过随体的延伸过程如图25.9所示(不多重组导致一个特定的重复单位出现在整个随体中,数字表示的是各个阶段重复单位的长度)假定一个随体最初是由序列abcade组成,不同的重复单位是相似的,可以在重组中彼此错配,当一种不多重组发生时,重复区域增加或减少,并且一种单位延伸逐渐代替所有的其它重复单位。 我们感到奇怪,是否一个含有特定重复单位的结构域的存在就可以表明是由一个单位从起源进行特定的延伸而产生的呢?举个例子,我们可以看到在图25.9所示的延伸的中期, 就有一个由”b”的变化体组成的结构域位于簇中。 交换固定模型预测任何一个没有选择压的DNA 序列,可以通过交换固定的途径接受一类重复单位从而产生一个串联的重复,其中决定性的假设是此交换固定是比突变快得多的过程,是一种除去(丢失重复单位)或者非收一个重复单位到整个簇中的新的变异方法。
31
4.9 Satellite DNAs often lie in heterochromatin
Cryptic satellite is a satellite DNA sequence not identified as such by a separate peak on a density gradient; that is, it remains present in main-band DNA. Euchromatin comprises all of the genome in the interphase nucleus except for the heterochromatin. Heterochromatin describes regions of the genome that are permanently in a highly condensed condition, are not transcribed, and are late-replicating. May be constitutive or facultative. Cryptic satellite DNA:隐蔽卫星DNA。指在密度梯度超速离心后不能形成单独的分离峰,而仍留在主要的DNA峰中的卫星DNA。 Euchromatin:常染色体。在分裂间期细胞核中除异染色体之外的全部基因组成分。是染色质的主要成分。它在形态上较为松散,具有一定的转录活性,其中约10%处于更为开放的疏松状态即称为活性。 Heterochromatin:异染色质。染色质中的次要组成成分,几乎不含有基因编码序列。在人的Y染色体、着丝粒中都有异染色质存在。在形态上,间期细胞核异染色质呈高度密集状态。
32
4.9 Satellite DNAs often lie in heterochromatin
In situ hybridization is performed by denaturing the DNA of cells squashed on a microscope slide so that reaction is possible with an added single-stranded RNA or DNA; the added preparation is radioactively labeled and its hybridization is followed by autoradiography. Satellite DNA consists of many tandem repeats (identical or related) of a short basic repeating unit. In situ hybridization:原位杂交。用标记的分子探针与细胞涂片或组织切片上的细胞染色体DNA或RNA进行杂交反应以检测靶序列或靶分子存在的量和位置的一种分子杂交方法。该法将分子检测与形态学观察结合起来,具有自己的特色,是研究分子病理学的有用的工具和手段。 Satellite DNA:前面已经讲过。 简单序列DNA 重复DNA 得名于其很快的复性速度,典型的重复DNA 是由基因组中一睦相同或相近的短小序列的拷贝重复而组成的(见第二十一章),在真核生物基因组中复性最 快的组分叫高度重复DNA,是中一些很短的序列重复很多倍,并串联成一簇而形成。由于重复的单位很小,所以有时高度重复 DNA 的行为简单序列DNA 。其几乎存在于所有的高等真核生物基因组中,但是其总含量却存在极大的差别,在哺乳动物中,其含量通常小于10%,而在果蝇中,其总量~50%。除了最初发现的大串的重复序列以外,后来还发现在一些非重复性DNA 中也有一些小的重复DNA序列串。 这种前后重复排列的短小序列常具有一些特殊的物理性质,可以用于将其分离出来,在一些情况下,这些重复序列具有与基因组平均水平不同的碱基组成,因此可以利用其具有不同的浮力密度将其分离,这样分离大米的重复性 DNA叫做卫星 DNA,卫星 DNA 的概念从本质上与简单序列同义。 串行排列的重复序列很容易在染色体配对时发生错排(misalignments),因此串行簇的大小表现为高度的多态性,在不同一个体间呈现出很大的变化。实际上,按小簇的重复序列可以用于鉴定个体的基因组,这就是“DNA 指纹”技术。 在物种内和物种间,对简单序列DNA的对应区域进行比较,可以为 DNA序列的进化过程等机制的研究提供信息,我们会问是否这些序列会起一些结构上的作用?尽管这方面的证据仍然很难获得。
33
4.9 Satellite DNAs often lie in heterochromatin
Figure 4.14 Mouse DNA is separated into a main band and a satellite by centrifugation through a density gradient of CsCl. 图4.14 通过CsCl密度梯度离心可以将老鼠DNA分为一条主带和卫星DNA。Satellites are present in many eukaryotic genomes. They may be either heavier or lighter than the main band; but it is uncommon for them to represent >5% of the total DNA. A clear example is provided by mouse DNA, shown in Figure The graph is a quantitative scan of the bands formed when mouse DNA is centrifuged through a CsCl density gradient. The main band contains 92% of the genome and is centered on a buoyant density of g-cm3 (corresponding to its average GC of 42%, typical for a mammal). The smaller peak represents 8% of the genome and has a distinct buoyant density of g-cm3. It contains the mouse satellite DNA, whose GC content (30%) is much lower than any other part of the genome. 卫星 DNA 通常位于异染色体上 双链DNA的浮力密度决定于其G·C的含量,它符合下面的经验公式: 浮力密度通常利用 DNA在的密度梯度离心下测定,DNA 在对应于其自身密度的位置处形成一条带,G·C含量相差大于5%的不同DNA 片断能够用密度梯度分离。 真核生物DNA经密度梯度离心后,可分为两种不同类型的组分: ◆ 基因组的绝大多数片段呈现出大一个连续的带,这条带有较宽的峰,其中轴对应于基因组中的平均G.C含量浮力密度,这条带作为主带。 ◆ 有时除了主带外,还有一个较小的峰(或一些小峰)出现在不同的浮力密度值处,这种组分就是卫星DNA(卫星 DNA)。 卫星 DNA存在于很多真核生物的基因组中,其浮力密度或者比主带大,或者比主带小,但通常含量不会大于 DNA 总量的5%。老鼠的DNA就是一个很好的例子,见图25.1,(图25。1 老鼠DNA在密度梯度离心下分离为主带和卫星 DNA),这张图对老鼠 DNA在密度梯度离心时形成的带进行了定量的描述,主带包含了基因组的92%,其中心的浮力密度为1.701g*cm-3,(对应G·C平均含量为42%,这是哺乳动物的典型组成)。较小的峰含有8%的基因组,它的浮力密度是1.690g*cm-3,其包含了小鼠的卫星 DNA 部分,其G.C含量(30%)低于基因组的其他任何组分。 通常,卫星DNA在密度梯度上的表现是不规则的。当卫星 DNA 的实际碱基组成已经确定时,它往往与根据浮力密度所预测的组成不同,原因是ρ不仅是碱基组成的函数,而且与其相邻近的碱基的构成也有关,而对于简单序列,更容易偏离碱基与浮力密度关系,因为浮力密度方程仅适用随机的情况。同时,卫星DNA 可能被甲基化,也会改变它的密度。
34
4.9 Satellite DNAs often lie in heterochromatin
Figure Individual bands containing particular genes can be identified by in situ hybridization. 图18.16 每条带(包括颗粒性基因)都可以通过原位杂交来鉴定。 Where in the genome are the blocks of highly repetitive DNA located? An extension of nucleic acid hybridization techniques allows the location of satellite sequences to be determined directly in the chromosome complement. In the technique of in situ hybridization, the chromosomal DNA is denatured by treating cells that have been squashed on a cover slip. Then a solution containing a radioactively labeled DNA or RNA probe is added. The probe hybridizes with its complements in the denatured genome. The location of the sites of hybridization can be determined by autoradiography (see Figure 18.16). 通常,基因组中大多数高度重复DNA能以随体的形式被分离出来,若高度重复DNA 成分可以随体DNA 形式分离出,其分离特性也证明了其与卫星DNA 的相似性,即其包含了多个具有不规则离心作用的串形重复序列,以这种方式分离的组分有时是指隐性随体(cryptic satcllite)一般情况下,隐悸 和表现的卫星DNA合起来,代表了高度重复 DNA中的所有大的串形重复区,若一个基因组含有一种以上的高度重复 DNA,那么每一种便位于其各自的随体区域(有时不同的区域是相邻的)。 高度重复 DNA区域位于基因组的何处呢?核酸杂交的一种扩展技术可以在深色体的互补体上直接对随体序列进行定位,在原位技术或细胞杂交技术中,将细胞进行处理,且盖纸体将其压碎,从而导致染色体 DNA 变性,然后加入含有放射性标准的DNA 或DNA 探针的溶液,探汁与变性的基因组中的互补序列杂交,杂交的发生位点能通过的射性自显影探测出来(看图26.5)。 卫星DNA存在于异染色质上,异染色质指的是染色体中永久性地紧密缠绕高度螺旋并且无活性的部分区域,和代表基因组大部分组分的常染色体相对应,异染色质一般存在于着丝粒处(有丝分裂和减数分裂中存在动粒的位置,用以控制染色体的移动)。
35
4.9 Satellite DNAs often lie in heterochromatin
Figure 4.15 Cytological hybridization shows that mouse satellite DNA is located at the centromeres. Photograph kindly provided by Mary Lou Pardue and Joe Gall. 图4.15 细胞杂交实验显示鼠卫星DNA位于着丝点。 An example of the localization of satellite DNA for the mouse chromosomal complement is shown in Figure In this case, one end of each chromosome is labeled, because this is where the centromeres are located in M. musculus chromosomes. 如图4.15(细胞杂交实验显示了小鼠的卫星 DNA位于着丝粒部位)所示,通过染色体互补实验展示了小鼠卫星 DNA的定位,在此实验中,每个染色体的一个末端都被标准,因为M.musculus染色体的着丝粒就位于染色体的一端。 卫星 DNA在着丝粒处定位暗示着其和染色体上具有某些结构的功能,这个功能可能与染色体的分离过程有关,但目前为止,只知道这一种作用,其它的功能仍然未知。由简单序列组成,并且是高度压缩的结构,因此卫星 DNA是不能被转录和翻译的。
36
4.10 Arthropod satellites have very short identical repeats
图4.16 D. virilis 的卫星DNAs。每个DNA的95%以上的序列是由主导序列的串联重复所组成。 Drosophila virilis has three major satellites and also a cryptic satellite, together representing >40% of the genome. The sequences of the satellites are summarized in Figure The three major satellites have closely related sequences. A single base substitution is sufficient to generate either satellite II or III from the sequence of satellite I. 节肢动物的卫星具有很短的相同的重复序列 在节肢动物中,以昆虫和蟹类为典型,每一个卫星 DNA都有很高的相似性,通常卫星的90%以上都是由一个很短的重复单位组成,这使得测序变得相对容易。 果蝇(D. virils)有三条主要的卫星,并且还有隐卫星,总共占基因组的40%以上,这些卫星的序列已归纳在表25.1中。(表25.1 D.Virilis的卫星DNA是相关的,每一个卫星都有超过95%的DNA都是由主要的序列串联重复组成的),这三条主要的带有非常相近的序列,从卫星Ⅰ只要改变一个碱基就可以得到卫星Ⅱ或卫星Ⅲ。 卫星Ⅰ的序列也存在于与果蝇相联系的其它种类的果蝇中,因此这很可能是在此物种形成以前就存在。 卫星Ⅱ和Ⅲ的序列好像是果蝇(D. virils)特有的,因此可能是在物种形成以后由卫星Ⅰ进化而来的。 这些卫星的主要特征是短小的重复单元:仅有7个碱基对,相似的卫星可以在其它的物种中找到,果蝇(Drosophila.Melanogaster)具有一系列卫星,其中几条含有非常的重复单元5、7、10或12bp),在蟹类中也可以找到类似的卫星。 在果蝇(D.virilis)中存在的这种卫星间相近的序列关系对于其它基因组并不是必须的,其它的物种中可以存在序列不相关的卫星,每一个卫星都是由一段非常短小的序列向旁边放大而来的,这些序列可能是由以前存在的卫星变化而来(像在果蝇中),或者还存在着一些其它的起源。 卫星不断地从基因组中产生和丢失,这使得我们很难弄清其进化关系,因为现存的卫星可能是由已经丢失的早期卫星进化而来的,这些卫星的一个重要特征是它是一个复杂性很低的长链DNA ,并且链顺序的恒定性可以保持。 很多这类卫星DNA 的一个特征是位于两条链上的碱基的是很不对称的,如表25.1所示D.virilis卫星,每一个主要卫星的双链中有一条链富含T.G碱基,因而增加了其浮力密度,所以在变性的情况下这条重链(H)可以与其互补的轻链(L)分离,这一特征有利于卫星的测序。 Figure 4.16 Satellite DNAs of D. virilis are related. More than 95% of each satellite consists of a tandem repetition of the predominant sequence.
37
4.10 Arthropod satellites have very short identical repeats
图4.15 细胞杂交实验显示鼠卫星DNA位于着丝点。 One feature of many of these satellites is a pronounced asymmetry in the orientation of base pairs on the two strands. In the example of the D. virilis satellites shown in Figure 4.15, in each of the major satellites one of the strands is much richer in T and G bases. This increases its buoyant density, so that upon denaturation this heavy strand (H) can be separated from the complementary light strand (L). This can be useful in sequencing the satellite.哺乳动物的卫星是分级重复构成的 在哺乳动物中,以各种啮齿类动物为代表,在构成每一条卫星的序列显示相连的重复单位之间有一些偏差,通常短小序列容易被识别,因为它在化学或酶解处理后释放的寡核苷酸片段中占有较大的优势,但是,主要的短小序列通常仅是所有重复序列中的很少一部分,其余的短序列都是通过主要序列通过一些取代,删除,插入的变化得来的。 但是几种变化的短单位可以共同组成一个长的重复单位,然后长的重复单位可以自己重复串联并伴随着一些变化,所以哺乳动物的卫星DNA是由分级的重复单位构成的。在重组分析中,这些长的重复单元构成了?性后的序列,它们也可以利用限制性内切酶的消化而识别。 当一条卫星 DNA被某种酶消化,而重复单元内有该酶的识别位点时,那么每一个重复单元都会在这个位点被识别从而获得一个切除的片段。实际上,当真核生物的基因组被限制性酶消化时,由于切点的随机分布,基因组的大部分成分将构成一个连续的一片分布的带,但是卫星 DNA 却得到一些尖锐的带,这是由于每隔一定距离便存在一个限制性的切割位点,于是就得到大量大小相同或几乎相同的片段。 测定卫星DNA 的序列是很困难的,我们试图利用限制性切割形成的分散的带直接获得其序列,然而若在单独的重复单元间存在着可以察觉的不同处,即在不同的重复序列中的同一位点上存在着不同的核苷酸,那么测序的凝胶就会不清楚,如果差别不是很大,比如在2%以内,那么就可能测定一个平均的重复序列。 Figure 4.15 Cytological hybridization shows that mouse satellite DNA is located at the centromeres. Photograph kindly provided by Mary Lou Pardue and Joe Gall.
38
4.11 Mammalian satellites consist of hierarchical repeats
图4.17 鼠卫星DNA的重复单元包含两个串联的半重复子。 Figure 4.17 depicts the sequence in terms of two half-repeats. By writing the 234 bp sequence so that the first 117 bp are aligned with the second 117 bp, we see that the two halves are quite well related. They differ at 22 positions, corresponding to 19% divergence. This means that the current 234 bp repeating unit must have been generated at some time in the past by duplicating a 117 bp repeating unit, after which differences accumulated between the duplicates. 卫星中的独立片段可以插入到质粒中进行克隆,但其中的困难是,卫星序列容易在细菌宿主细胞重组时从嵌合的质粒中切除出去,然而,一旦克隆成功,就可能明确地测定出克隆片段的序列。尽管这提供了精确测定一个或多个重复序列的方法,我们应必须获得许多这种单独的序列,作为一个整体来重建这种存在分歧的类型的卫星。 无论通过任何一种方法测序,我们所获得的信息都限制于用凝胶分析的序列的程度。由于有分歧地串联拷贝的重复性,使得利用限制性切割获得片段重叠来重新构建长的序列的方法不能实现。 老鼠M.muscmus的卫星DNA 被EcoRⅡ酶切成一系列的带,主要包括一条234bp的单体片段,这段序列的重复序列的变化性很小,它们组成了上述被切割的卫星DNA 的60-70%,我们可以依据这段序列中连续的小的重复单位来分析这段序列。 图25.3用两个半重复序列来描述这段DNA,(图 小鼠卫星DNA 的重复单位含有的两个半重复单位,将其排在一起显示其同一性(有颜色)),通过将234个碱基分为前117个碱基与后117碱基方式并列排在一起,我们看到这两个半序列很相似,彼此之间只有22个位点不相同,也就是只有19%的区别,这意味着,现存的234个碱基的重复单元很可能是在过去的某个时候由一个117个碱基对的重复单元复制得到的,而后在两个复制单元内部逐渐产生了差别。 Figure 4.17 The repeating unit of mouse satellite DNA contains two half-repeats, which are aligned to show the identities (in color).
39
4.11 Mammalian satellites consist of hierarchical repeats
图4.18四分之一重复子的序列对比表明每个半重复子的第一和第二部分存在同源性。 Within the 117 bp unit, we can recognize two further subunits. Each of these is a quarter-repeat relative to the whole satellite. The four quarter-repeats are aligned in Figure The upper two lines represent the first half-repeat of Figure 4.17; the lower two lines represent the second half-repeat. We see that the divergence between the four quarter-repeats has increased to 23 out of 58 positions, or 40%. The first three quarter-repeats are somewhat better related, and a large proportion of the divergence is due to changes in the fourth quarter-repeat. 在117bp 的单元内部,我们能进一步分辨出两个亚单位,每个这样的亚单位对于整个卫星DNA 来说都是四分之一重复。四个四分之一重复在图25.4并列列出。(图 四分之一序列并列列出以鉴定每个半重复序列的前半部分和后半部分之间的同源性,所有1/4重复序列中都相同的位置用颜色表示,只有3个1/4重复序列中相同的用红色面积中的灰色字母表示)上面的两行序列代表着图25.3中的第一个半重复序列,下面的两条序列代表着第二个半重复序列,我们看到这四个1/4重复间的差异已上升到58个位点中的23个,或者说40%。前面的3个1/4重复的相关性较强,而大部分的差别来自于第四个1/4重复的碱基改变。 Figure 4.18 The alignment of quarter-repeats identifies homologies between the first and second half of each half-repeat. Positions that are the same in all 4 quarter-repeats are shown in color; identities that extend only through 3 quarter-repeats are indicated by grey letters in the pink area.
40
4.11 Mammalian satellites consist of hierarchical repeats
图4.19 八分之一重复子的序列对比表明每个四分之一重复子是由一个a和b半重复子组成。 Looking within the quarter-repeats, we find that each consists of two related subunits (one-eighth-repeats), shown as the and sequences in Figure The sequences all have an insertion of a C, and the sequences all have an insertion of a trinucleotide, relative to a common consensus sequence. This suggests that the quarter-repeat originated by the duplication of a sequence like the consensus sequence, after which changes occurred to generate the components we now see as and . Further changes then took place between tandemly repeated sequences to generate the individual quarter- and half-repeats that exist today. Among the one-eighth-repeats, the present divergence is 19/31 = 61%. 看1/4重复的内部,我们发现每个1/4重复都包括着两个相关的亚单位(1/8重复),如图25.5中所示的、序列。 (图 并列的八个重复序列表示出每个1/4重复都包含一个和一个亚单位。所有序列的每个位点都是由大致相同的碱基构成。而“祖先”序列则是与一致序列比较相关的序列,可能是、单位共同的祖先。(卫星DNA 的序列是连续的,为了推出一致序列,我们可以将其处理成一个环,也就是将最后3个GAA碱基与先面的6个碱基相连))。所有的序列都加入了一个胞嘧啶C,而所有的序列都包括一个三核苷酸,从而与一致序列相关。这表示1/4重复序列起源于一种类似一致序列的序列的重复。复制以后,序列发生一些变化,产生了我们现在看到的、序列。进一步的变化发生于串联的重复序列之间,从而产生了今天存在的个体的1/4及半重复,在1/8重复之间,存在的差别为19/31,即61%。 Figure 4.19 The alignment of eighth-repeats shows that each quarter-repeat consists of an a and a b half. The consensus sequence gives the most common base at each position. The "ancestral" sequence shows a sequence very closely related to the consensus sequence, which could have been the predecessor to the a and b units. (The satellite sequence is continuous, so that for the purposes of deducing the consensus sequence, we can treat it as a circular permutation, as indicated by joining the last GAA triplet to the first 6 bp.)
41
4.11 Mammalian satellites consist of hierarchical repeats
Figure 4.20 The existence of an overall consensus sequence is shown by writing the satellite sequence in terms of a 9 bp repeat. 图4.20 通过记录一个以9bp重复为主体的卫星DNA序列显示一个总体共有序列的存在。 The consensus sequence is analyzed directly in Figure 4.20, which demonstrates that the current satellite sequence can be treated as derivatives of a 9 bp sequence. We can recognize three variants of this sequence in the satellite, as indicated at the bottom of Figure If in one of the repeats we take the next most frequent base at two positions instead of the most frequent, we obtain three well-related 9 bp sequences. 这些一致序列在图25.6中直接进行分析(图 以9碱基对的重复形式将卫星DNA 的整个一致序列展示出来),图中描述现有的卫星DNA 序列可以看作由9bp的序列衍生而来,我们可以识别大序列三个不同的区段,就象图25.5的底部所指出的那样,如果在一个重复单位中我们将两个位点用重复频率第二高的碱基占据,而其它位点用重复频率最高的碱基占据,我们则得到三个相关性很高的9bp的序列,GAA AAA CGT GAAA AA TGA GAAAAAACT。 卫星DNA序列的起源可以理解为这三个九聚碱基中的某一个的放大,现在这个卫星DNA 序列的总的一致序列是GAAAAAAG(TC)T,它们是由以上三个9bp重复单元的有效融合而成。
42
4.11 Mammalian satellites consist of hierarchical repeats
Figure 4.21 The evolution of mouse satellite DNA can be explained by an alternation of saltatory replications and accumulation of mutations. 卫星中分级变化的进化过程 在确定卫星DNA 每个级别水平上的序列组成以后,我们就可以逆进化过程地重建它的进化并解释它的特征,图25.7给出了一个现在的卫星DNA形成步骤的可能模型(图 小鼠卫星DNA 的进化可以跳跃复制和突变积累的扩增来解释)。 这个模型的基本原则是在不同的时刻,一组重复单元突然向侧旁的扩增制造大量相同的串联拷贝,这种行为被称为跳跃式复制(saltatory replication)。然后,这些拷贝中由突变积累而产生的差别,随后的某个时刻,这样的一组拷贝发生另一次跳跃复制。每次跳跃进化的大的拷贝间的差别程度取决于从上一次完成的跳跃复制到这次跳跃复制的时间间隔,卫星可能是通过一系列的跳跃复制以及复制间交替发生的突变的积累而得以进化而形成的。 假设这个卫星起源于GAA AAA TGT或与其相似的某个序列的串联重复,(这个序列可能是卫星的一部分,或者也可能另有起源,它的存在年代太过遥远,我们很难推断它的具体情形),所有的最初的9bp单元都是相同的,但随着时间产生的变异使它们出现差别,随后有我们假定的祖先序列像图25.7所列的放大的三个连续单位形成的27bp的串联的重复单位。 变异在这个单元中发生,包括一个单元加入了一个C,而它相邻的单元插入了一个三联核苷酸,这对重复单位现在共有58bp长,它们进行跳跃复制,得到一个卫星,我们将其描述为。 再一次,卫星积累点突变,删除和插入突变,从而在重复单元间造成差别,两个相邻的对在下一次跳跃复制中得以形成,获得116bp的重复单元。进一步突变后,两个这样的相邻单元连接从而得到现在的卫星。 老鼠的卫星 DNA 单体片段的平均序列解释了它的特征,最长的234bp的重复单位借助限制性内切酶得以鉴定。卫星DNA 变性成单链后,重新组合的单位可能是117bP的半重复单位。因为234bp的片段在退火时,可以整个区域或者半个区域性的退火,(在后一种情况中,单链上的半重复可以和另一条单链的第二个半重复单元复性),在寡核苷酶降解中,最通常的片段是GA5TGA, AG4 TGA, GA4CTGA,以上都可在234 bP单元中找到,并且与推测的祖先单元也有很相近的联系。
43
4.11 Mammalian satellites consist of hierarchical repeats
Figure 4.21 Digestion of mouse satellite DNA with the restriction enzyme EcoRII identifies a series of repeating units (1, 2, 3) that are multimers of 234 bp and also a minor series (?, 1?, 2?) that includes half-repeats (see text later). The band at the far left is a fraction resistant to digestion. 图4.21 鼠卫星DNA经EcoRII限制性酶切消化显示系列234bp的多聚体重复单元(1,2,3)和一些含量小的系列(1/2,11/2,21/2),包括半重复子。远左端的条带是未消化的部分。 The monomeric 234 bp unit is generated when two adjacent repeats each have the recognition site. A dimer occurs when one unit has lost the site, a trimer is generated when two adjacent units have lost the site, and so on. With some restriction enzymes, most of the satellite is cleaved into a member of this repeating series, as shown in the example of Figure The declining number of dimers, trimers, etc. shows that there is a random distribution of the repeats in which the enzyme’s recognition site has been eliminated by mutation. 到目前为止,我们将这个卫星看作由234bp的重复单元的多个相同的拷贝组成,虽然这个单元对应了卫星中的大部分组分,但是也有变异存在,有些变异随机分布于卫星中,另一些则集中存在。 我们在序列分析时将起始物质称为“单体”片段,这暗示了卫星的存在,将卫星用酶溶解,此酶在234bp内有一个切割位点,但仍得到一些相对234bp长度的二聚体、三聚体和四聚体,当变异的结果使重复单元中酶切割位点丢失时,这种情况便发生了。 当两个相邻的重复单元均含有酶识别位点时,便得到单体的234bp单元,若一个重复无所作为只别位点,则得到二聚体,若两个相邻单元都丢失识别位点,则得到三聚体,以此类推,对于几种限制性酶切,卫星的大部分都被切割成几类重复单元,如图25.8所示例子(图 将小鼠的卫星DNA 用限制性内切酶EcoRⅡ降解,得到几种重复单元(1,2,3),分别是234bp的多聚体,还有一些较少的序列(1/2、11/2、21/2)其包含有半重复单元(见以后的课文),最左边的带是难以消化的部分)。二聚体、三聚体数目是逐渐下降的(聚体数越高,其数目越少),说明重复单位上被变异取代的酶识别位点是随机分布的。 而另外一种限制性酶与卫星DNA 作用则显示出不同的性质,它连续地产生相同种类的一带,但是它只能切割DNA 的很小一部分,大约5-10%,这表示卫星DNA 的某些区域集中了一些重复单位,这些重复单位上带有特定的限制性确切点,据推测,这个结构域的这种重复单位可能全部是由具有这种识别位点的祖先变异体衍化而来的,(虽然如此,还有一些单元在以后的突变中丢失了酶切位点)。
44
4.12 Minisatellites are useful for genetic mapping
Figure 4.22 Alleles may differ in the number of repeats at a minisatellite locus, so that cleavage on either side generates restriction fragments that differ in length. By using a minisatellite with alleles that differ between parents, the pattern of inheritance can be followed. 图4.22 等位基因可能会由于在一个微小卫星位点的重复子数目不同而不同,因此在两测同时酶切会产生长度不一的限制性酶切片段。通过运用等位基因微小卫星与亲本之间的区别可以跟踪遗传图谱。 The high variability of minisatellites makes them especially useful for genomic mapping, because there is a high probability that individuals will vary in their alleles at such a locus. An example of mapping by minisatellites is illustrated in Figure This shows an extreme case in which two individuals both are heterozygous at a minisatellite locus, and in fact all four alleles are different. All progeny gain one allele from each parent in the usual way, and it is possible unambiguously to determine the source of every allele in the progeny. In the terminology of human genetics, the meioses described in this figure are highly informative, because of the variation between alleles. 微卫星DNA可以用于遗传绘图 通常在哺乳动物基因组中存在一种代表卫星DNA的序列,它与卫星类似,是由一些短的单串联重复组成,但是其重复总长很短,只有(举个例子)5-50个重复单位组成。在人类 DNA 的基因组图谱库中偶然发现的片断大小变化很大,其变化性表现在一个群体中,在基因组的相同区域,含有不同大小的DNA 片段,当对不同个体进行检查时,证明了那个区域的广泛的多态性,可以找到很多不同的等位基因。 这些序列就称为微卫星DNA(minisatellite) 或VNTR(数目变化的串联重复序列)区域,其变化性产生的原因是由于个别的等位基因含有不同数目的重复单位,举个例子,一个微卫星DNA 含有64bp长的重复单位,而在一个群体中可以找到下列分布。 7% 18重复序列 11% 16重复序列 43% 14重复序列 36% 13重复序列 4% 10重复序列
45
4.12 Minisatellites are useful for genetic mapping
Figure 4.22 Alleles may differ in the number of repeats at a minisatellite locus, so that cleavage on either side generates restriction fragments that differ in length. By using a minisatellite with alleles that differ between parents, the pattern of inheritance can be followed. 这种变化性的产生是由于不重合的重复单位间的遗传重组引起的,其产生途径与我们以前讨论的卫星DNA 相同,在微卫星DNA 序列中遗传交换的速率很高,约为10-4每kb DNA (每个位点实际发生交换的频率假设与微卫星DNA 的长度成立比),其重组速率是减数分裂时同源重组速率的10倍,同源重组是发生在任意DNA序列处的,微卫星DNA 是减数重组的热点。 有时微卫星DNA 的存在是与其附近区域的高速交换有关,但是在一些情况下,重组事件发生在姐妹染色单体之间(这种情况下,微卫星DNA 的长度会发生变化,但对侧面的标准区无影响,因为两个重组的DNA 分子是完全相同的)。 微卫星DNA 的高度变化性使得其特定的应用于遗传绘图,由于在此座位上其等位基因的多变性,因此其在此区域内等位基因很可能不同。利用微卫星DNA 绘图的例子见图25.10(图 在微卫星DNA 座位上的等位基因含有不同的重复序列的数目,因此在两侧切割所得的片段长度也不同,利用微卫星DNA,其等位基因在双亲中不同,就可以了解其遗传的方式)。图中给了一个极端如例子,两个个体在微卫星 DNA 座位上都是杂合的,而且实际上四个等位基因都是不同的,所有的子代从每一个系本获得一个等位基因,而且可以清晰地确定子代中每一个等位基因的来源,在人类遗传学中,这个图中描述的减数分裂是很有益的,因为其等位基因间的变化性。 微卫星DNA家族可以在人类基因组中找到共同的核心序列,这个核心是一段10-15bp的富含G.C的序列,在两条链上显示出嘌呤/嘧啶分布的不对称特,每一个个体微卫星 DNA 有不同的核序列,但是~1000微卫星DNA 可以用由核心序列组成的探针在Southern blot方法中确定出来。 如同图25.10所示情况,放大1000倍,每一个特定座位的多样性的效应增强了每个个体的特有的模式,这使得可能清晰地确定子代和亲代间的遗传性,任何一个子代50%的带足来自于一个特定的亲本,这就是DNA 指纹技术(DNA fingerprinting)的基础。
46
4.13 Summary 1. Almost all genes belong to families, defined by the possession of related sequences in the exons of individual members. 2. An evolving set of genes may remain together in a cluster or may be dispersed to new locations by chromosomal rearrangement. 3. Mutations accumulate more rapidly in silent sites than in replacement sites (which affect the amino acid sequence). 4. A tandem cluster consists of many copies of a repeating unit that includes the transcribed sequence(s) and a nontranscribed spacer(s). 5. Satellite DNA consists of very short sequences repeated many times in tandem. 6. Unequal crossing-over appears to have been a major determinant of satellite DNA organization. 总结 卫星DNA 是由一些很短的序列重复很多串联组成的,由于其不同的碱基组成使其具不同的离心特征。卫星DNA聚集在异染色体上,但是对它的功能不太了解,节肢动物的卫星 DNA中个别的重复单位是相同的,哺乳动物的卫星DNA是由相似的重复单位构成,并且分级组织,反应了这些卫星 DNA按照放大和随机选择序列而引起差别进行进化的过程,不等交换可以视为卫星 DNA组织化的主要决定因素,交换固定解释了一个变体延伸为一个簇的能力,微卫星 DNA具有与卫星 DNA相似的特征,但是很小,它可以用于基因图谱作图。
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.