近似搜索 邹权 博士、助理教授

Slides:



Advertisements
Similar presentations
一、统计范围 注册地在湖里区的具有房地产开发资质的 房地产开发企业 无论目前是否有开发项目 无论开发的项目是在湖里区还是在其他区 没有开发项目的企业需要报送年报和月报 中的资金表(空表)。 新成立的项目公司,要先入库,再报报表。
Advertisements

Inexact Matching of Strings General Problem –Input Strings S and T –Questions How distant is S from T? How similar is S to T? Solution Technique –Dynamic.
Refining Edits and Alignments Υλικό βασισμένο στο κεφάλαιο 12 του βιβλίου: Dan Gusfield, Algorithms on Strings, Trees and Sequences, Cambridge University.
数据挖掘实验 1 Apriori 算法编程实现. 数据挖掘实验一 (20’) 实验目的:了解关联规则在数据挖掘中的 应用,理解和掌握关联挖掘的经典算法 Apriori 算法的基本原理和执行过程并完成程 序设计。 实验内容:对给定数据集用 Apriori 算法进行 挖掘,找出其中的频繁集并生成关联规则。
实验:验证牛顿第二定律. 1 、实验目的:探究 a 与 F 、 m 的定量关系 2 、实验原理:控制变量法 A 、 m 一定时,探究 a 随 F 的变化关系 B 、 F 一定时, 探究 a 随 m 的变化关系.
细分曲面 傅孝明 SA 目录 细分曲面的基本思想 两个关键问题 一些基本概念 几种简单的细分曲面算法 细分曲面方法分类.
LexisNexis Academic Universe 学术大全数据库 使用介绍. 2 讲解内容 : 了解 LexisNexis Academic 学术大全数据库 具体的使用说明 相关问题的说明 互动空间 联系我们.
绪 论绪 论绪 论绪 论 南京信息工程大学物理实验教学中心 第一次布置的作业 P37/3, 6P37/3, 6 作业做在实验报告册上!!
Sequencing and Sequence Alignment
东南大学 吴健雄实验室. 第三节 序列多重比对 目的: 发现多个序列的共性 发现与结构和功能相关的保守序列片段 设:有 k 个序列 s 1, s 2,...,s k ,每个序列由同一个 字母表中的字符组成, k 大于 2 。 通过插入操作,使得各序列达到一样的长度。
Viterbi 算法 viterbi 实验要求:见 experiment3.doc – 将 TRUNC_LENGTH 取值为 4 , 8 , 16 , 32 , 64 ,看看程序运行结果会有什么变化并分析原 因。 – 将 NUMSIM 取值为 10 1 , 10.
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 3 章 曲线拟合的最小二乘法 给出一组离散点,确定一个函数逼近原函数,插值是这样 的一种手段。在实际中,数据不可避免的会有误差,插值函 数会将这些误差也包括在内。
例9:例9: 第 n-1 行( -1 )倍加到第 n 行上,第( n-2 ) 行( -1 )倍加到第 n-1 行上,以此类推, 直到第 1 行( -1 )倍加到第 2 行上。
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第四十八讲 ) 离散数学. 例 设 S 是一个非空集合, ρ ( s )是 S 的幂集合。 不难证明 :(ρ(S),∩, ∪,ˉ, ,S) 是一个布尔代数。 其中: A∩B 表示 A , B 的交集; A ∪ B 表示 A ,
第十一章 曲线回归 第一节 曲线的类型与特点 第二节 曲线方程的配置 第三节 多项式回归.
第五节 钢梁的局部稳定 对组合梁才考虑局部稳定问题. 如考虑截面部分发展塑性时,应满足: 一、翼缘板的局部稳定 二、腹板的局部稳定 采用配置加劲肋的方法来解决。 第五节 钢梁的局部稳定.
Sequence Alignment Variations Computing alignments using only O(m) space rather than O(mn) space. Computing alignments with bounded difference Exclusion.
线性代数习题课 吉林大学 术洪亮 第一讲 行 列 式 前面我们已经学习了关 于行列式的概念和一些基本 理论,其主要内容可概括为:
数据库与智能网络研究室. © htttp://dbin.jlu.edu.cn 数据库系统原理复习大纲.
实验三: 用双线性变换法设计 IIR 数字滤波器 一、实验目的 1 熟悉用双线性变换法设计 IIR 数字滤波器的原理与方法。 2 掌握数字滤波器的计算机仿真方法。 3 通过观察对实际心电图信号的滤波作用, 获得数字滤波的感性知 识。
Dynamic Programming and Biological Sequence Comparison Part I.
Sequence Alignment II CIS 667 Spring Optimal Alignments So we know how to compute the similarity between two sequences  How do we construct an.
Multiple Sequence alignment Chitta Baral Arizona State University.
外文文献检索示例. 实验目的: 掌握利用计算机网络检索外文文献的基本方法; 了解熟悉下列数据库的结构、内容并掌握其检索方 法 ; 掌握检索的主要途径:出版物( Publication )、关键 词( Keyword )、作者( Author )等。
1 第 7 章 专家控制系统 概述 专家系统的起源与发展 专家系统的一般结构 专家系统的知识表示和获取 专家系统的特点及分类.
量子化学 第四章 角动量与自旋 (Angular momentum and spin) 4.1 动量算符 4.2 角动量阶梯算符方法
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 5 章 解线性方程组的直接法 实际中,存在大量的解线性方程组的问题。很多数值方 法到最后也会涉及到线性方程组的求解问题:如样条插值的 M 和.
Introduction to Bioinformatics Algorithms Sequence Alignment.
Sequence similarity. Motivation Same gene, or similar gene Suffix of A similar to prefix of B? Suffix of A similar to prefix of B..Z? Longest similar.
第 3 章 控制流分析 内容概述 – 定义一个函数式编程语言,变量可以指称函数 – 以 dynamic dispatch problem 为例(作为参数的 函数被调用时,究竟执行的是哪个函数) – 规范该控制流分析问题,定义什么是可接受的控 制流分析 – 定义可接受分析在语义模型上的可靠性 – 讨论分析算法.
2010 上海世博会场内人流模拟分析 Research of Visitors’ Flow in the World Expo 2010 Shanghai based on Internet Survey De Wang, Li Ma Department of Urban Planning, Tongji.
实验三: 用双线性变换法设计 IIR 数字滤波器 一、实验目的 1 熟悉用双线性变换法设计 IIR 数字滤波器的原理与方法。 2 掌握数字滤波器的计算机仿真方法。 3 通过观察对实际心电图信号的滤波作用, 获得数字滤波的感性知 识。
编译原理总结. 基本概念  编译器 、解释器  编译过程 、各过程的功能  编译器在程序执行过程中的作用  编译器的实现途径.
1 Sequences comparison 1 Issues Similarity gives a measure of how similar the sequences are. Alignment is a way to make clear the correspondence between.
Class 2: Basic Sequence Alignment
卫生学(第 7 版) · 第十二章 直线相关与回归 1 直线相关与回归 第十一章. 卫生学(第 7 版) · 第十二章 直线相关与回归 2 主要内容 直线相关 直线回归 直线相关与回归的区别与联系 等级相关.
 符号表  标识符的作用: 声明部分:定义了各种对象及对应的属性和 使用规则。 程序体:对所定义的对象进行各种操作。 $ididname IdnameAttributeIR  必要性 Token : 新表-符号表(种类、类型等信息):
Sequence Alignment.
Pairwise alignments Introduction Introduction Why do alignments? Why do alignments? Definitions Definitions Scoring alignments Scoring alignments Alignment.
1-4 节习题课 山东省淄博第一中学 物理组 阚方海. 2 、位移公式: 1 、速度公式: v = v 0 +at 匀变速直线运动规律: 4 、平均速度: 匀变速直线运动 矢量式 要规定正方向 统一单位 五个量知道了三 个量,就能求出 其余两个量 3 、位移与速度关系:
体育骨干教师培训讲义 (体育绘图) 主讲:李 铁 强 保定学院 体育系. 第一讲: 1. 体育绘图的内容与作用、发展简况、学习方法; ( 1 )体育动作图 包括基本体操图、各项运动技术图、身体训练图; ( 2 )体育教学组织图 体育教学程序图:说明体育课各项教材的安排顺序及时间分配运用的图解; 组织形式图:说明体育课中的场地布置、队形、学生及运动器械的移动路线的一.
《 UML 分析与设计》 交互概述图 授课人:唐一韬. 知 识 图 谱知 识 图 谱知 识 图 谱知 识 图 谱.
Introduction to Automatic Control The Laplace Transform Li Huifeng Tel:
Pairwise Sequence Alignment BMI/CS 776 Mark Craven January 2002.
Chapter 3 Computational Molecular Biology Michael Smith
表单自定义 “ 表单自定义 ” 功能是用于制作表单的 工具,用数飞 OA 提供的表单自定义 功能能够快速制作出内容丰富、格 式规范、美观的表单。
检索 聪明的检索 简单自然  一框式检索,无须学习  逐步细化,贴近人的思维,容 易理解 善于甄别  挑选最相关、最权威、最新的 文献 总结联想  论文在检索结果中的学科、期 刊、时间等分布情况  启发思考 有礼貌  快速响应.
力的合成 力的合成 一、力的合成 二、力的平行四边形 上一页下一页 目 录 退 出. 一、力的合成 O. O. 1. 合力与分力 我们常常用 一个力来代替几个力。如果这个 力单独作用在物体上的效果与原 来几个力共同作用在物体上的效 果完全一样,那么,这一个力就 叫做那几个力的合力,而那几个 力就是这个力的分力。
向日葵的花盘 画一画 用圆规画圆用圆规画圆 用圆规画圆用圆规画圆 用圆规画圆的方法: ( 1 )把圆规的两脚分开,定好两脚间 的距离(定长) ( 2 )把有针尖的一只脚固定在一点上 (定点) ( 3 )把装有铅笔尖的一只脚旋转一周 ,就画出一个圆(旋转)
逻辑设计基础 1 第 7 章 多级与(或)非门电路 逻辑设计基础 多级门电路.
“ 百链 ” 云图书馆. 什么是百链云图书馆?1 百链云图书馆的实际效果?2 百链云图书馆的实现原理?3 百链云图书馆的价值?44 图书馆要做什么?55 提 纲.
1 第四章 Dynamic Programming 技术 邹权(博士)计算机科学系 Introduction F(n) = 1if n = 0 or 1 F(n-1) + F(n-2)if n > 1 n F(n)F(n) Pseudo.
第五章 特征值与特征向量 —— 幂法 /* Power Method */ 计算矩阵的主特征根及对应的特征向量 Wait a second, what does that dominant eigenvalue mean? That is the eigenvalue with the largest.
中国科学引文数据库. 1 、数据库简介 目前,亚太地区的科学研究产出所占份额超过了全球论文产量的四分 之一。尤其是中国在论文数量方面表现出了强劲的增长势头,自 1981 年来, 中国论文的平均增长率为 17% 。为了更好的展示中国的学术研究成果,汤 森路透科技与医疗集团于 2007 年与中国科学院开展战略合作项目,即将中.
张勤 人大报刊复印资料 专题全文数据库 简 介简 介 《人大报刊资料全文数据库》是中国人民大 学书报资料中心与北京博利群电子信息有限 公司联合开发研制的大型数据库光盘。它涵 盖面广、信息量大、分类科学、筛选严谨、 结构合理,是国内最具权威的社会科学、人.
1 第三章 数列 数列的概念 考点 搜索 ●数列的概念 ●数列通项公式的求解方法 ●用函数的观点理解数列 高考 猜想 以递推数列、新情境下的 数列为载体, 重点考查数列的通 项及性质, 是近年来高考的热点, 也是考题难点之所在.
Los Angeles | London | New Delhi Singapore | Washington DC 如何使用数据库资源 十问 SAGE 北京办公室.
北大法意数据库应用. 讲座提要大纲 法律专业能力 法律实践 法律信息检索能力 互联网 法律信息检索能力是法律专业人士的核心能力之一 美国律师协会( ABA )把它明确规定在律师的工 作规范和职业道德中.
蹲点联校与拓展型课题研究 情况介绍 喻照安 本人蹲点联校之学校 拓展型课题名称 蹲点学校:当阳市实验中学 宜昌市 22 中学 宜昌市 27 中学 拓展型研究课题: “ 对话教学,灵动未央 ” 教育研究.
1 Chapter4 Partitioning and Divide-and-Conquer Strategies 划分和分治的并行技术 Lecture 5.
Generation of Chinese Character Based on Human Vision and Prior Knowledge of Calligraphy 报告人: 史操 作者: 史操、肖建国、贾文华、许灿辉 单位: 北京大学计算机科学技术研究所 NLP & CC 2012: 基于人类视觉和书法先验知识的汉字自动生成.
Sequence comparison and database search.
韩文数据库使用说明 鲁锦松. 主要内容 一、为什么要用数据库 二、怎样利用中文数据库 三、怎样利用韩文数据库.
目录 上页 下页 返回 结束 二、无界函数反常积分的审敛法 * 第五节 反常积分 无穷限的反常积分 无界函数的反常积分 一、无穷限反常积分的审敛法 反常积分的审敛法  函数 第五章 第五章.
Introduction to Sequence Alignment. Why Align Sequences? Find homology within the same species Find clues to gene function Practical issues in experiments.
义务教育教科书 数 学(一年级上册) 简 介. 1. 加强了准备性(主要体现在第一、二单元)  把实验教材的第一、二单元合并为 “ 准备课 ” 。  将 “ 位置 ” 由一年级下册提前到一年级上册。 一、内容变动 2. 降低了难度(主要体现在第四、七单元)  平面、立体图形的认识分散编排。 
Linear Equations 1.1 System of linear Equations
Sequence Alignment 11/24/2018.
Finding Patterns in a Knowledge Base using Keywords to Compose Table Answers/VLDB2015 报告人:胡信晖 2019/1/18.
BCB 444/544 Lecture 7 #7_Sept5 Global vs Local Alignment
Presentation transcript:

近似搜索 邹权 博士、助理教授

Outline  Global alignment  Local alignment  BLAST

 why compare sequences?  sequence comparison: operation consisting of finding which parts of the sequences are alike and which parts differ / Algorithms for an efficient solution

TT....TGTGTGCATTTAAGGGTGATAGTGTATTTGCTCTTTAAGAGCTG || || || | | ||| | |||| ||||| ||| ||| TTGACAGGTACCCAACTGTGTGTGCTGATGTA.TTGCTGGCCAAGGACTG AGTGTTTGAGCCTCTGTTTGTGTGTAATTGAGTGTGCATGTGTGGGAGTG | | | | |||||| | |||| | || | | AAGGATC TCAGTAATTAATCATGCACCTATGTGGCGG AAATTGTGGAATGTGTATGCTCATAGCACTGAGTGAAAATAAAAGATTGT ||| | ||| || || ||| | ||||||||| || |||||| | AAA.TATGGGATATGCATGTCGA...CACTGAGTG..AAGGCAAGATTAT

 Two notions Similarity: a measure of how similar two sequences are Alignment: a basic operation to compare two sequences, a way of placing one sequence above the other in order to make clear the correspondence between similar characters or substrings from the sequences.

comparing two sequences alignments involving:  global comparisons: entire sequences  local comparisons: just substrings of sequences dynamic programming (DP)

global comparison- example example of aligning  GACGGATTAG  GATCGGAATAG  GA – CGGATTAG  GATCGGAATAG  an extra T; a change from A to T; space: dash

global comparison- the basic algorithm Definitions  Alignment: insertion of spaces: same size creating a correspondence: one over the other Both space are not allowed (Spaces can be inserted in beginning or end)  Scoring function : a measure of similarity between elements ; a match: +1/ identical characters a mismatch: -1/ distinct characters a space: -2/ Scoring system: to reward matches and penalize mismatches and spaces

global comparison- the basic algorithm  GA – CGGATTAG  GATCGGAATAG  Example: total score is 6  similarity : sim(s, t) maximum alignment score; many alignments with similarity  best alignment alignment with similarity

Basic DP algorithm for comparison of two sequences  number of alignment between two sequences: exponential  Efficient algorithm DP: prefixes: shorter to larger Idea: (m+1)*(n+1) array: entry (i, j) is similarity between s  1..i  and t  1..j  p(i, j)=+1 if s[i]=t[j], and -1 if s[i] ≠ t[j]: upper left corners

A A A C AGC

local comparison Problem:  local alignment between s and t: an alignment between a substring of s and a substring of t Algorithm: to find the highest scoring local alignment between two sequences

local comparison Idea:  Data structure: an (m+1)×(n+1) array; entry: holding the highest score of an alignment between a suffix of s[1..i] and a suffix of t[1..j].  Initialization First row and column: initialized with zeros ← for any entry (i,j), there is always the alignment between the empty suffixes of s[1..i] and t[1..j], which has score zero.

Global alignment

Local vs. Global Alignment (cont ’ d)  Global Alignment  Local Alignment — better alignment to find conserved segment --T—-CC-C-AGT—-TATGT-CAGGGGACACG—A-GCATGCAGA-GAC | || | || | | | ||| || | | | | |||| | AATTGCCGCC-GTCGT-T-TTCAG----CA-GTTATG—T-CAGAT--C tccCAGTTATGTCAGgggacacgagcatgcagagac |||||||||||| aattgccgccgtcgttttcagCAGTTATGTCAGatc

Local Alignment: Example Global alignment Local alignment Compute a “mini” Global Alignment to get Local

semiglobal comparison Summary  Forgiving initial spaces: initializing certain positions with zero  Forgiving final spaces: looking for maximum along certain positions Place where spaces are not charged for Action Beginning of first sequenceInitialize first row with zeros End of first sequenceLook for maximum in last row Beginning of second sequenceInitialize first column with zeros End of second sequenceLook for maximum in last column

saving space Computing sim(s, t) Algorithm BestScore input: sequence s and t output: vector a m ← |s| n ← |t| for j ← 0 to n do a[j] ← j×g for i ← 1 to m do old ← a[0] a[0] ← i×g for j ← 1 to n do temp ← a[j] a[j] ← max(a[j]+g, old+p(i,j), a[j-1]+g) old ← temp

An optimal alignment in linear space Idea: Divide and conquer strategy Fix position i in s, and consider what matching s[i] in alignment, two possibilities: 1, The symbol t[j] will match s[i], for some j in 1..n (3.6) 2, a space between t[j] and t[j+1] will match s[i], for some j in 1..n (3.7) Recursive method 1, for fixed i 2, to decide which value of i to use in each recursive call: to pick i as close as possible to the middle of sequence

saving space

BLAST/Lucene  步骤 为数据库建立倒排索引 查询倒排索引 扩展检验  问题 K 值选取 变长 Kmer

Homework  为{ apple, please, eat, apply }建立关键字树,并画出所 有的失效链接  比对两个字符串( aaac 和 agc ),假定: match 得 2 分, mismatch-1 分,空格 -2 分,画出动态规划表和回溯路径, 并给出针对该回溯路径的比对方式  简述 BLAST 的主要思想  为字符串 “abababc” 计算每一位的 sp 和 sp‘ 值