人类群体遗传学 基本原理和分析方法 徐书华 金 力 中科院-马普学会计算生物学伙伴研究所

Slides:



Advertisements
Similar presentations
纺纱学. 2 绪 论 基本要求:了解纺纱系统的类别 重点掌握:棉纺系统的工艺流程 3 一、纺纱原理与设备 纺纱:用物理或机械的方法将纺织纤维纺成纱 线的过程。 纺纱原理:初加工、原料的选配、开松除杂、 混和、梳理、精梳、并合、牵伸、加捻、卷绕等。 纺纱方法:传统纺纱方法、新型纺纱方法。 纺纱设备:开清棉联合机、梳棉机、精梳机、
Advertisements

Sampling distributions of alleles under models of neutral evolution.
Signatures of Selection
球面网格及其应用 李杰权 北京师范大学数学科学学院
第四章 犯罪概念与犯罪构成. 第一节 犯罪概念 一、犯罪概念的类型  (一)犯罪的形式概念  (二)犯罪的实质概念  (三)犯罪的混合概念.
理论专题 1 :演化经济地理学. 理论专题 1 :演化经济地理学 演化经济地理学 : 经济地理学发展的新方向 演化经济地理学 : 经济地理学发展的新方向 Evolutionary economics and economic geography.
计算机 在分析化学的应用 ( 简介 ) 陈辉宏. 一. 概述 信息时代的来临, 各门学科的研究方法都 有了新的发展. 计算机的介入, 为分析化学的进展提供了 一种更方便的研究方法.
嵌入式操作系统 陈香兰 助教:王振明 Spring 2006.
第十六章  医院营养科的管理 第一节 行政管理 一、管理体制 (一)科主任职责 (二)营养师职责 (三)营养士职责.
2.2 结构的抗力 抗力及其不定因素 材料强度的标准值 材料强度的设计值.
塑 性 加 工 学 实 验 课 件塑 性 加 工 学 实 验 课 件 — 金属室温压缩变形抗力测定及加工硬化分析 南京理工大学材料科学与工程系 制作人:尹德良.
Harris Spring 2005 讲座一 “ERP 与企业流程再造 ” 东南大学 自控系 赵霁教授 电话: 一 ERP 是什么? 二企业为什么要引入 ERP 系统? 三企业管理软件的发展与 ERP 的创新之处 四 ERP 与流程再造的关系。 五 企业流程再造规划分析。
嵌入式操作系统 陈香兰 助教:毛熠璐、吴昊 Spring 2008.
第十一章 曲线回归 第一节 曲线的类型与特点 第二节 曲线方程的配置 第三节 多项式回归.
线性代数习题课 吉林大学 术洪亮 第一讲 行 列 式 前面我们已经学习了关 于行列式的概念和一些基本 理论,其主要内容可概括为:
安全操作系统 中国科学技术大学计算机系 陈香兰( 0512 - ) 助教:裴建国 Autumn 2008.
兽医病理生理学 Veterinary Pathophysiology. 一、概念 (Definition or concept) : 兽医病理生理学是研究动物疾病发生的 原因和条件,研究疾病全过程中患病体的 机能、代谢的动态变化及其机制,揭示疾 病发生、发展和转归的规律,阐明疾病的 本质,为疾病的防治提供理论依据。
聚合物在生物高分子分离中的应用 王延梅 中国科学技术大学高分子科学与工程系 Tel
1 应用计量分析在公共财政领域的应用黄智聪 厦门大学财政系研究生课程 课程名称:应用计量分析在公共财政领域的 应用 授课老师:黄智聪 授课内容: 时间序列与横断面资料的共用 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge, (2001), Undergraduate.
绪 论 一、药物分析性质与任务 二、国家药品标准 三、药品质量管理规范 四、课程的要求. 药 品 用于预防、治疗、诊断人的疾病, 有目的地调节人的生理机能并规定有适应 症或者功能主治、用法用量的物质, 是广大人民群众防病治病、保护健康必不 可少的特殊商品。 《中华人民共和国药品管理法》 性质与任务.
信息利用与学术论文写作 Library of Jiangsu University, Zhenjiang Sha Zhenjiang
流态化 概述 一、固体流态化:颗粒物料与流动的流体接触,使颗粒物料呈类 似于流体的状态。 二、流态化技术的应用:流化催化裂化、吸附、干燥、冷凝等。 三、流态化技术的优点:连续化操作;温度均匀,易调节和维持; 气、固间传质、传热速率高等。 四、本章基本内容: 1. 流态化基本概念 2. 流体力学特性 3.
UML 对象设计与编程 主 讲 : 董兰芳 副教授 Dept. of Computer Science,USTC
土壤学ⅠⅡ ( 土壤学Ⅰ ) 学时安排:上课: 36 学时 实验: 6 次共 18 学时(单周,第 7 周起) 地点在实验楼一楼进大门右手 授课教师:资源环境学院,潘根兴、李辉信 电话: ( O ) :
嵌入式操作系统 陈香兰 助教:王振明 Spring 2007.
实验八 — 高分子材料的老化性 能测定. 南京理工大学化工学院 一、 实验目的  1. 了解橡胶的老化机理  2. 掌握鼓风老化试验箱的使用方法  3. 测定老化前后的力学性能.
第一节 相图基本知识 1 三元相图的主要特点 (1)是立体图形,主要由曲面构成; (2)可发生四相平衡转变; (3)一、二、三相区为一空间。
第二章 通信技术基础 谈英姿 东南大学自控系工业自动化教研室. 通信技术基础 2.1 通信的基本概念 2.2 通信协议与网络层次分析 2.3 常用串行通信技术.
1 地 理 信 息 系 统 —— 专业必修课程 西南大学地理科学学院 田永中 ,
编译原理总结. 基本概念  编译器 、解释器  编译过程 、各过程的功能  编译器在程序执行过程中的作用  编译器的实现途径.
1.2 地理信息技术在区域 地理环境研究中的应用. 地理信息技术: 指获取、管理、分析和 应用地理空间信息的现 代技术的总称。 应用:资源调查、环境监测、自然灾害防御监测、国 土资源管理、国土开规划等。 地理信息 : 遥感 (RS) 、全球定位系统 (GPS) 和地理信息系统 (GIS)
卫生学(第 7 版) · 第十二章 直线相关与回归 1 直线相关与回归 第十一章. 卫生学(第 7 版) · 第十二章 直线相关与回归 2 主要内容 直线相关 直线回归 直线相关与回归的区别与联系 等级相关.
主要学习内容: 1、用描述法分析样品的风味特征 2 、学习味觉试验方法。 闽北职业技术学院食品与生物工程系.
 符号表  标识符的作用: 声明部分:定义了各种对象及对应的属性和 使用规则。 程序体:对所定义的对象进行各种操作。 $ididname IdnameAttributeIR  必要性 Token : 新表-符号表(种类、类型等信息):
Department of Mathematics 第二章 解析函数 第一节 解析函数的概念 与 C-R 条件 第二节 初等解析函数 第三节 初等多值函数.
1 Genetic Variability. 2 A population is monomorphic at a locus if there exists only one allele at the locus. A population is polymorphic at a locus if.
人类群体遗传学 基本原理和分析方法 徐书华 金 力 中科院-马普学会计算生物学伙伴研究所
《 UML 分析与设计》 交互概述图 授课人:唐一韬. 知 识 图 谱知 识 图 谱知 识 图 谱知 识 图 谱.
Lecture 21: Tests for Departures from Neutrality November 9, 2012.
Chapter 14 Simple Regression
人类群体遗传学 基本原理和分析方法 中科院 - 马普学会计算生物学伙伴研究所 中国科学院上海生命科学研究院研究生课程 人类群体遗传学 徐书华 金 力.
华南师范大学教育科学学院 第二步:明确小组成员分工 选举 “ 常任组长 ” 1 名。 所有组员以个人姓名笔画排序 1 、 2 、 3 、 4 、 5 号,轮流担任 “ 轮值组长 ” ,每一周进行轮换。 本次课的轮值组长为 1 号。
余红梅 Department of Health Statistics School of Public Health, Shanxi Medical University 卫生统计学 Health Statistics 第九章 检验( II ) chi-square test ( II )
人类群体遗传学 基本原理和分析方法 中科院 - 马普学会计算生物学伙伴研究所 中国科学院上海生命科学研究院研究生课程 人类群体遗传学 徐书华 金 力.
1 DNA Polymorphisms: DNA markers a useful tool in biotechnology Any section of DNA that varies among individuals in a population, “many forms”. Examples.
力的合成 力的合成 一、力的合成 二、力的平行四边形 上一页下一页 目 录 退 出. 一、力的合成 O. O. 1. 合力与分力 我们常常用 一个力来代替几个力。如果这个 力单独作用在物体上的效果与原 来几个力共同作用在物体上的效 果完全一样,那么,这一个力就 叫做那几个力的合力,而那几个 力就是这个力的分力。
第一章食品感官检验. 内容简介 本章讲述了食品感官检验的概念、 感官检验类型、感觉知识基础、感官 评价等知识。
个体 精子 卵细胞 父亲 受精卵 母亲 人类生活史 问题:人类产生配子(精、卵 细胞)是不是有丝分裂?
太阳能综合利用技术 中国科学技术大学热科学和能源工程系. 一、多功能热泵系统 多功能家用热泵样机通过控制元件的切换 可以实现三种运行模式:①单独制热水模 式,②制冷兼制热水模式,③制暖模式。
Lecture 20 : Tests of Neutrality
中国知网数字图书馆 增值服务介绍 同方知网 张丽华. 全部文献报表 全部文献报表 中国工程院院士(本所专家) 中国工程院院士(本所专家) 本所专利及相关水产标准专利成果 本所专利及相关水产标准专利成果 海洋可捕资源与生态系统 海洋可捕资源与生态系统 海水养殖生态与容纳量 海水养殖生态与容纳量 海水养殖生物疾病控制与分子病理.
Chap 10-1 Password: shnu2010.
无忧 PPT 整理发布 无忧 PPT 整理发布 网上教研活动的推进与 学习社区的构建 首都师范大学 蒋国珍 2008 年 12 月.
高考改革与学校变革 方红峰 浙江省教育厅基础教育处. 交流内容 一、改了什么 二、引发改变 三、几点建议.
开放教育学员入学须知 第一部分:浏览山东理工大学远程与继续 教育学院网站浏览山东理工大学远程与继续 教育学院网站 第二部分:浏览中央电大教学平台浏览中央电大教学平台 第三部分:浏览山东电大教学平台浏览山东电大教学平台 第四部分:浏览淄博电大教学平台浏览淄博电大教学平台 第五部分:淄博电大教学平台使用淄博电大教学平台使用.
森林保护学本科系列课程 教学改革与实践 西北农林科技大学 一、基本情况 二、主要成果 三、创新点 四、成果的应用 项目研究背景 项目的总体设计 成果简介 解决的主要教学问题 解决教学问题的方法 改革前后的对比.
院长助理 教务处长 李学锋 教授 2008 年 9 月 9 日 基于工作过程的系统化高职课程建设.
八. 真核生物的转录 ㈠ 特点 ① 转录单元为单顺反子( single cistron ),每 个蛋白质基因都有自身的启动子,从而造成在功能 上相关而又独立的基因之间具有更复杂的调控系统。 ② RNA 聚合酶的高度分工,由 3 种不同的酶催化转 录不同的 RNA 。 ③ 需要基本转录因子与转录调控因子的参与,这.
课程简介 算法设计与分析 ( Design and Analysis of Algorithms) 任课教师 : 王轶彤 Tel: TA: 周泽学 授课方式 : 全英文教学, 3.
张勤 人大报刊复印资料 专题全文数据库 简 介简 介 《人大报刊资料全文数据库》是中国人民大 学书报资料中心与北京博利群电子信息有限 公司联合开发研制的大型数据库光盘。它涵 盖面广、信息量大、分类科学、筛选严谨、 结构合理,是国内最具权威的社会科学、人.
参展主要内容 以信息科技支撑现代农业为主题,包括精准农业、数字农业、农 业物联网、农业遥感、信息服务 5 部分内容,重点展示科研院所、大 专院校等单位的科研成果及应用示例。精准农业重点展示面向设施、 果园、大田生产管理过程中的关键技术及智能装备,以精准施肥、施 药、灌溉大型机具实物展示为主,同时将搭建微型温室(约.
Generation of Chinese Character Based on Human Vision and Prior Knowledge of Calligraphy 报告人: 史操 作者: 史操、肖建国、贾文华、许灿辉 单位: 北京大学计算机科学技术研究所 NLP & CC 2012: 基于人类视觉和书法先验知识的汉字自动生成.
2015 年工作汇报 钟 平. 6 一、校 本 研 修 2 听 评 课听 评 课听 评 课听 评 课 1.
韩文数据库使用说明 鲁锦松. 主要内容 一、为什么要用数据库 二、怎样利用中文数据库 三、怎样利用韩文数据库.
课件共享 课外作业 —— 第二章( ) 第一组:氨氧化作用、氨氧化细菌、氨氧化古菌 第二组:硫氧化作用、硫氧化细菌 第三组:甲烷厌氧氧化作用,甲烷厌氧氧化古菌 第四组:碱性磷酸酶、富营养化作用 第五组:土壤生物修复.
一周小结 时间: 2013 年 8 月 23 日. DNA 甲基化检测的方法 大体分为两个步骤 : (1) 待检测样品的前期处理 (2) 目标序列的定位和甲基化状态的量化 亚硫酸氢钠 限制性内切酶 利用特定抗体对甲基化的胞 嘧啶进行免疫沉淀反应.
生物统计学 林隆慧.
Signatures of Selection
Neutrality Test First suggested by Kimura (1968) and King and Jukes (1969) Shift to using neutrality as a null hypothesis in positive selection and selection.
Business Statistics Topic 5
Presentation transcript:

人类群体遗传学 基本原理和分析方法 徐书华 金 力 中科院-马普学会计算生物学伙伴研究所 中国科学院上海生命科学研究院研究生课程 人类群体遗传学 人类群体遗传学 基本原理和分析方法 徐书华 金 力 中科院-马普学会计算生物学伙伴研究所

2008-2009学年第二学期《人类群体遗传学分析方法》课程表 上课时间:每周四上午10:00-11:50 上课地点:中科大厦4楼403室第7教室 序号 日 期 课程内容 授课教师 1 2月26日 Hardy-Weinberg平衡检验原理及其应用 徐书华 2 3月5日 遗传多态性统计量 3 3月12日 进化树的构建方法及应用 4 3月19日 Coalescence原理及应用 李海鹏 5 3月26日 遗传漂变效应及有效群体大小的估计 6 4月2日 人群遗传结构分析 (I) 7 4月9日 单倍型估计及连锁不平衡分析 8 4月16日 人群遗传结构分析 (II) 9 4月23日 基因定位中的关联分析(I) 何云刚 10 4月30日 基因定位中的关联分析(II) 11 5月7日 人类基因组中的连锁不平衡模式及标签位点的选择 12 5月14日 基因表达数据的分析方法 严军 13 5月21日 人群历史的遗传学研究 5月28日 端午节 14 6月4日 法医学检测及分析方法 李士林 15 6月11日 自然选择检验原理和方法 16 6月18日 全基因组基因型数据正选择检验方法 17 6月25日 课程考试 教育基地

第二讲 遗传多态性统计量

第二讲 遗传多态性的概念 遗传多态性的种类 描述遗传多态性的统计量 群体遗传多态性参数(θ)的估计 利用群体遗传多态性数据进行统计检验 Tajima test

Polymorphism Light-morph Jaguar (typical) Dark-morph or melanistic Jaguar (about 6% of the South American population) http://en.wikipedia.org/

Polymorphism

56 ethnic groups in China They have different clothes

They speak different languages

Human Genetic Diversity Science 319:1100 (2008)

Polymorphism Greek: poly = many, and morph = form Polymorphism is often defined as the presence of more than one genetically distinct type in a single population. Rare variations are not classified as polymorphisms; and mutations by themselves do not constitute polymorphisms.

Sexual dimorphism Why is the ratio ~50/50?

DNA polymorphism RFLP (Restriction Fragment Length Polymorphism) AFLP (Amplified Fragment Length Polymorphism) RAPD (Random Amplification of Polymorphic DNA) VNTR (Variable Number Tandem Repeat, or Minisatellite) STR (Short Tandem Repeat, or Microsatellite) SNP (Single Nucleotide Polymorphism) SFP (Single Feature Polymorphism) CNV (Copy Number Variation)

Intuitive statistics Number of alleles Minor allele frequency (MAF) More alleles, larger diversity; Minor allele frequency (MAF) is the frequency of the less (or least) frequent allele in a given locus and a given population.

Human SNP data A Single Nucleotide Polymorphism (SNP) ("snip") is a single base variant in DNA. Mutation: minor allele frequency (MAF) ≤1% SNP: MAF >1% SNPs are the most simple form and most common source of genetic polymorphism in the human genome (90% of all human DNA polymorphisms).

Heterozygosity The fraction of individuals in a population that are heterozygous for a particular locus. It can also refer to the fraction of loci within an individual that are heterozygous. Observed where n is the number of individuals in the population, and ai1, ai2 are the alleles of individual i at the target locus. Expected where m is the number of alleles at the target locus, and fi is the allele frequency of the ith allele at the target locus.

Heterozygosity related issues Heterozygosity and HWD Comparison of Ho and He Gene diversity

Population Mutation Rate (q ) Under mutation-drift equilibrium: q = 4Nem for autosome q = Nem for Y and mtDNA q = 3Nem for X chromosome qautosome > qX > qY

Estimators of θ Number of segregating sites (θK); Average pairwise differences (θ∏); Number of alleles (θE); Mean number of mutations since the MRCA (θΩ); Singleton.

Number of segregating sites (K) Under the infinite site model, K is equal to the number of mutations since the most recent common ancestor of the sequences in the sample. Therefore, K has a clear biological meaning. However, K depends on the sample size.

Normalized K

Under the neutral Wright-Fisher model with constant effective population size,

The properties of θK θK is independent of sample size. However, the usefulness of θK is not clear under other population genetic models, such as those with natural selection. θK is sensitive to the number of rare alleles, or mutants of low frequency.

How many common SNPs in human genome? Common SNPs: minor allele frequency (MAF) >0.05; Suppose we have 50 samples of African, European, Asian respectively; Theta=1.2/kb for African population; Theta=0.8/kb for European and Asian population; Autosome length (L)=2.68 billion bp; where We expect 9.8 million common SNPs in 50 African samples; We expect 6.5 million common SNPs in 50 European samples; We expect 6.5 million common SNPs in 50 Asian samples;

ThetaK=1.2/kb

ThetaK=0.8/kb

Average pairwise differences (∏) Also known as sequence diversity mean number of nucleotide differences between two sequences.

The properties of ∏ ∏ as a measure of genetic variation has clear biological meanings which do not depend on the underlying evolutionary process. In comparison to θK, it is insensitive to the rare alleles, or mutants of low frequency. ∏ is an useful measure of persistent genetic variation, and neutral genetic variation when purifying selection is operating. However, because its variance is considerably larger than that of θK, it is not as good as θK for neutral locus.

Nucleotide Diversity Locus (length) p(x10-4) q(x10-4) m(x10-9) Ne Reference APOE (5.5kb) 5.3 6.87(S) 23.5 7,300 Fullerton et al. 2000 Chr.1 (10kb) 5.8 9.51(S) 14.8 16,000 Yu et al. 2001 Chr.22 (10kb) 8.8 13.2 (S) 23 14,400 Zhao et al. 2000 X chr. (10.2kb) 3.6 6.8 (S) 18.4 12,300 Kaessmann et al. 1999 X chr. (4.2kb)) - 4.41(ML) 19.2 7,700 Harris & Hey 1999 Y chr. (64kb) 0.74 2.01(S) 24.8 8,100 Thomson et al. 2000 mtDNA (15.4kb) 28 28(p) 340 8,200 Ingman et al. 2000 Alu insertions - - - 17,500 Sherry et al. 1997

Number of alleles Ewens (1972) shows that under the infinite allele model An estimate of θ can be obtained by resolving the above equation for θ with E(k) replaced by k. The estimate is known as Ewens’s estimator θE.

The properties of θE Under the infinite allele model, θE is about the best estimator one can devise. However, θE is slightly upward biased estimator particularly when θ is large.

Mean number of mutations since the MRCA (Ω) The mean number Ω of mutations since the most recent common ancestor (MRCA) of a sample is another intuitive summary statistic, but seldom used in practice. This is probably partly due to that its use requires knowing for each segregating site the ancestral nucleotide, and partly because its because its statistical properties are not well understood.

Let ωl be the number of mutations in sequence l since MRCA. Then the average is given by Note that a mutation of size i is counted as one mutation in i of n sequences, we therefore have

It follows that

Singleton mutations The number ξi of mutations of size 1 in a sample is of special interest because it captures mostly the recent mutations in a sample. According to Fu and Li (1993),

Classify the above summary statistics

∏0,0 =θ K ∏1,1 =θ∏ ∏1,0 =θΩ

Weight of ∏k,l statistics

Distribution of θ ξi Ω ∏ θK A sample of 100 from a population with θ=5.

Neutral hypothesis as the null model Whether a locus has been evolving under natural selection is often of interest if the locus represent a gene or linked to one. As typical in many branches of sciences, a simpler explanation of phenomenon is often preferred unless there is strong evidence to suggest otherwise. In population genetics study, the neutral hypothesis of evolution is arguably simpler than any other hypotheses and is much better understood statistically. As a result, it is now generally used as the null model for analyzing polymorphism. A significant deviation from the null model may signal the presence of forces that are absent or factors that are over-simplified in the null model.

Statistical tests using estimators of θ There are several ways statistical tests can be constructed to see if the null model is adequate for explaining the observed amount and pattern of polymorphism. Many summary statistics (estimators of θ) have quite different expectation when the null model is violated, this offer an opportunity of testing by considering the difference between two measures of polymorphism.

Suppose L1 and L2 are two different summary statistics such that E(L1) =E(L2) under the hypothesis of strict neutrality. Then one way to test the null hypothesis of strict neutrality is to use the normalized difference as test statistic. Normalization is intended to minimize the effect of unknown parameter(s) so that the resulting test is more rigorous. Note that V ar(L1−L2) is a function of θ so its value needs to be estimated.

Although every pair of statistics L1 and L2 can be used to construct a test as long as E(L1) = E(L2) and V ar(L1−L2) can be computed, such a test is useful only if the values of L1 and L2 are likely different when the locus under study depart from neutrality. Unfortunately the distribution of a test of the form above is not well approximated by any standard distribution, so that obtaining critical values from a large number of simulated samples is commonly used, which means that the best way to apply such tests is to use a computer package that implement the test. Therefore, we will focus on discussing the rational of several tests rather than detail of their computations.

Tajima test the parameter θ required for computing the variance is estimated by K/an.

Rational of Tajima test Since K ignores the frequency of mutants, it is strongly affected by the existence of deleterious alleles, which are usually kept in low frequencies. In contrast, ∏ is not much affected by the existence of deleterious alleles because it takes the frequency of mutants into consideration. Therefore, a D value that is significantly different from 0 suggests that the null hypothesis should be rejected.

Indication of Tajima’s D When a population has been under selective sweeps (and population growth), K/an will likely be larger than ∏, resulting in negative value of D. When a population has been under balance selection (or population structure with sampling from many populations), K/an will likely be smaller than ∏, resulting in positive value of D.

Tajima’s D Expectations Neutrality: D=0 Balancing Selection: D>0 Divergence of alleles (π) increases Purifying or Positive Selection: D<0 Divergence of alleles decreases Also Bottleneck, D>0 (S decreases) Population expansion: D<0 (Divergence of alleles decreases: many low frequency alleles)

常用软件 DnaSp PAML Arlequin http://www.ub.es/dnasp/ PAML http://abacus.gene.ucl.ac.uk/software/paml.html Arlequin http://anthro.unige.ch/software/arlequin/