東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷.

Slides:



Advertisements
Similar presentations
1 生物計算期末作業 暨南大學資訊工程系 2003/05/13. 2 compare f1 f2  只比較兩個檔案 f1 與 f2 ,比完後將結果輸出。 compare directory  以兩兩比對的方式,比對一個目錄下所有檔案的相 似程度。  將相似度很高的檔案做成報表輸出,報表中至少要.
Advertisements

Chapter 10 馬可夫鏈 緒言 如果讀者仔細觀察日常生活中所發生的 諸多事件,必然會發現有些事件的未來 發展或演變與該事件現階段的狀況全然 無關,這種事件稱為獨立試行過程 (process of independent trials) ;而另一些 事件則會受到該事件現階段的狀況影響。
第七章 抽樣與抽樣分配 蒐集統計資料最常見的方式是抽查。這 牽涉到兩個問題: 抽出的樣本是否具有代表性?是否能反應出母體的特徵?
: A-Sequence 星級 : ★★☆☆☆ 題組: Online-judge.uva.es PROBLEM SET Volume CIX 題號: Problem D : A-Sequence 解題者:薛祖淵 解題日期: 2006 年 2 月 21 日 題意:一開始先輸入一個.
Section 1.2 Describing Distributions with Numbers 用數字描述分配.
第二章 太陽能電池的基本原理 及其結構 2-1 太陽能電池的基本原理 2-2 太陽能電池的基本結構 2-3 太陽能電池的製作.
指導老師:李宗夷 專題製作: 陳少川 林世偉 Acetyllysine 與 Methyllysine 之分類.
序列分析工具:MDDLogo 謝勝任 林宗慶 指導教授:李宗夷 教授.
指導教授:陳淑媛 學生:李宗叡 李卿輔.  利用下列三種方法 (Edge Detection 、 Local Binary Pattern 、 Structured Local Edge Pattern) 來判斷是否為場景變換,以方便使用者來 找出所要的片段。
1.1 線性方程式系統簡介 1.2 高斯消去法與高斯-喬登消去法 1.3 線性方程式系統的應用(-Skip-)
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參 實驗法.
亂數產生器安全性評估 之統計測試 SEC HW7 姓名:翁玉芬 學號:
Stat_chi21 類別資料 (Categorical data) 一種質性資料, 其觀察值可歸類於數個不相交的項目內, 例 : 性別, 滿意度, …, 一般以各項的統計次數表現. 分析此種資料,通常用卡方檢定 類別資料分析 卡方檢定 卡方檢定基本理論 一個含有 k 項的試驗,設 p i.
Review of Chapter 3 - 已學過的 rules( 回顧 )- 朝陽科技大學 資訊管理系 李麗華 教授.
:New Land ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11871: New Land 解題者:施博修 解題日期: 2011 年 6 月 8 日 題意:國王有一個懶兒子,為了勞動兒子,他想了一個 辦法,令他在某天早上開始走路,直到太陽下山前,靠.
: OPENING DOORS ? 題組: Problem Set Archive with Online Judge 題號: 10606: OPENING DOORS 解題者:侯沛彣 解題日期: 2006 年 6 月 11 日 題意: - 某間學校有 N 個學生,每個學生都有自己的衣物櫃.
STAT0_sampling Random Sampling  母體: Finite population & Infinity population  由一大小為 N 的有限母體中抽出一樣本數為 n 的樣 本,若每一樣本被抽出的機率是一樣的,這樣本稱 為隨機樣本 (random sample)
Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2005/5/15 生物物理.
Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點 兩座標軸的刻度不同,散佈圖的外觀呈 現的相聯性強度,會有不同的感受。 散佈圖 2 相聯性看起來比散佈圖 1 來得強。 以統計數字相關係數做為客觀標準。
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
基礎物理總論 基礎物理總論 熱力學與統計力學(三) Statistical Mechanics 東海大學物理系 施奇廷.
CH22 可靠性加速測試方法 目的 基本假設 加速試驗模式 Inverse Power Model
Department of Air-conditioning and Refrigeration Engineering/ National Taipei University of Technology 模糊控制設計使用 MATLAB 李達生.
Monte Carlo Simulation Part.2 Metropolis Algorithm Dept. Phys. Tunghai Univ. Numerical Methods C. T. Shih.
2009fallStat_samplec.i.1 Chap10 Sampling distribution (review) 樣本必須是隨機樣本 (random sample) ,才能代表母體 Sample mean 是一隨機變數,隨著每一次抽出來的 樣本值不同,它的值也不同,但會有規律性 為了要知道估計的精確性,必需要知道樣本平均數.
南投縣社區大學 Excel 實務應用入門 講師 : 林泉成
信度.
BEM 特論 - 第一次討論 指導教授 : 陳正宗 終身特聘教授 指導學長 : 高聖凱、謝祥志、林羿州 學生 : 吳建鋒 日期 :2015/6/16 Fundamental Solution Green’s Function Green’s Theorem.
:Problem D: Bit-wise Sequence ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10232: Problem D: Bit-wise Sequence 解題者:李濟宇 解題日期: 2006 年 4 月 16.
: Happy Number ★ ? 題組: Problem Set Archive with Online Judge 題號: 10591: Happy Number 解題者:陳瀅文 解題日期: 2006 年 6 月 6 日 題意:判斷一個正整數 N 是否為 Happy Number.
Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理.
7.1 背景介紹 7.2 多解析度擴展 7.3 一維小波轉換 7.4 快速小波轉換 7.5 二維小波轉換 7.6 小波封包
選舉制度、政府結構與政 黨體系 Cox (1997) Electoral institutions, cleavage strucuters, and the number of parties.
: Playing War ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11061: Playing War 解題者:陳盈村 解題日期: 2008 年 3 月 14 日 題意:在此遊戲中,有一類玩家一旦開始攻擊, 就會不停攻擊同一對手,直到全滅對方或無法再.
: Problem A : MiniMice ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11411: Problem A : MiniMice 解題者:李重儀 解題日期: 2008 年 9 月 3 日 題意:簡單的說,題目中每一隻老鼠有一個編號.
: Multisets and Sequences ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11023: Multisets and Sequences 解題者:葉貫中 解題日期: 2007 年 4 月 24 日 題意:在這個題目中,我們要定義.
:Nuts for nuts..Nuts for nuts.. ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 10944:Nuts for nuts.. 解題者:楊家豪 解題日期: 2006 年 2 月 題意: 給定兩個正整數 x,y.
The application of boundary element evaluation on a silencer in the presence of a linear temperature gradient Boundary Element Method 期末報告 指導老師:陳正宗終身特聘教授.
Lecture 7 Sorting in Linear Time. Sorting in Linear Time2 7.1 Lower bounds for sorting 本節探討排序所耗用的時間複雜度下限。 任何一個以比較為基礎排序的演算法,排序 n 個元 素時至少耗用 Ω(nlogn) 次比較。
1 Introduction to Java Programming Lecture 2: Basics of Java Programming Spring 2008.
觀測量的權 權的觀念與計算.
公用品.  該物品的數量不會因一人的消費而受到 影響,它可以同時地被多人享用。 角色分配  兩位同學當我的助手,負責:  其餘各人是投資者,每人擁有 $100 , 可以投資在兩種資產上。  記錄  計算  協助同學討論.
Section 4.2 Probability Models 機率模式. 由實驗看機率 實驗前先列出所有可能的實驗結果。 – 擲銅板:正面或反面。 – 擲骰子: 1~6 點。 – 擲骰子兩顆: (1,1),(1,2),(1,3),… 等 36 種。 決定每一個可能的實驗結果發生機率。 – 實驗後所有的實驗結果整理得到。
函式 Function Part.2 東海大學物理系‧資訊教育 施奇廷. 遞迴( Recursion ) 函式可以「呼叫自己」,這種動作稱為 「遞迴」 此程式的執行結果相當於陷入無窮迴圈, 無法停止(只能按 Ctrl-C ) 這給我們一個暗示:函式的遞迴呼叫可以 達到部分迴圈的效果.
JAVA 程式設計與資料結構 第二十章 Searching. Sequential Searching Sequential Searching 是最簡單的一種搜尋法,此演 算法可應用在 Array 或是 Linked List 此等資料結構。 Sequential Searching 的 worst-case.
演算法 8-1 最大數及最小數找法 8-2 排序 8-3 二元搜尋法.
: Expect the Expected ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11427: Expect the Expected 解題者:李重儀 解題日期: 2008 年 9 月 21 日 題意:玩一種遊戲 (a game.
資訊理論 授課老師 : 陳建源 研究室 : 法 401 網站
845: Gas Station Numbers ★★★ 題組: Problem Set Archive with Online Judge 題號: 845: Gas Station Numbers. 解題者:張維珊 解題日期: 2006 年 2 月 題意: 將輸入的數字,經過重新排列組合或旋轉數字,得到比原先的數字大,
Chapter 2. Recurrence Relations (遞迴關係)
Chapter 10 m-way 搜尋樹與B-Tree
Probability Distribution 機率分配 汪群超 12/12. 目的:產生具均等分配的數值 (Data) ,並以 『直方圖』的功能計算出數值在不同範圍內出現 的頻率,及繪製數值的分配圖,以反應出該 機率分配的特性。
1 Introduction to Java Programming Lecture 2: Basics of Java Programming Spring 2009.
2005/7 Linear system-1 The Linear Equation System and Eliminations.
連續隨機變數 連續變數:時間、分數、重量、……
A Simple Model for Protein Structure 施奇廷(東海大學物理系).
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 壹 企業研究導論.
: Place the Guards ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 11080: Place the Guards 解題者:陳盈村 解題日期: 2008 年 3 月 26 日 題意:有一個國王希望在他的城市裡佈置守衛,
: SAM I AM ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11419: SAM I AM 解題者:李重儀 解題日期: 2008 年 9 月 11 日 題意: 簡單的說,就是一個長方形的廟裡面有敵人,然 後可以橫的方向開砲或縱向開砲,每次開砲可以.
第五章IIR數位濾波器設計 濾波器的功能乃對於數位信號進行處理﹐ 以滿足系統的需求規格。其作法為設計一 個系統的轉移函數﹐或者差分方程式﹐使 其頻率響應落在規格的範圍內。本章探討 的是其中一種方法﹐稱為Infinite impulse register(IIR)。 IIR架構說明。 各種不同頻帶(Band)濾波器的設計方法。
: Finding Paths in Grid ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11486: Finding Paths in Grid 解題者:李重儀 解題日期: 2008 年 10 月 14 日 題意:給一個 7 個 column.
:Problem E.Stone Game ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10165: Problem E.Stone Game 解題者:李濟宇 解題日期: 2006 年 3 月 26 日 題意: Jack 與 Jim.
財務管理概論 劉亞秋‧薛立言 合著 (東華書局, 2007)
幼兒行為觀察與記錄 第八章 事件取樣法.
1 Chemical and Engineering Thermodynamics Chapter 1 Introduction Sandler.
: How many 0's? ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 11038: How many 0’s? 解題者:楊鵬宇 解題日期: 2007 年 5 月 15 日 題意:寫下題目給的 m 與 n(m
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
Introduction to DNA Computing Introducer: 黃宏偉 Adviser: 楊昌彪 教授.
Presentation transcript:

東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論 DNA Walk C.K. Peng et al. Nature 356, 168 (1992). H.S. Stanley et al. Physica A273, 1 (1999). For i=A, G → u(i)=-1 For i=C, T → u(i)=+1

東海大學物理系‧計算科學總論 DNA Walk (conti.) (a)intron-rich human  - cardiac myosin heavy- chain gene sequence (b)Its cDNA (c)Introless bacterion-phage DNA squence

東海大學物理系‧計算科學總論 DNA Walk (conti.) Fluctuations:Correlation: Random sequence and short correlated sequence: Long-range correlated sequence:

東海大學物理系‧計算科學總論 DNA Walk (conti.) (a) intron-containing  -cardiac myosin ( ● with a=0.67) and its cDNA ( ○ with a=0.49) (b) ● with a=0.62) and its intronless genes ( ○ with a=0.49), see table (b) intron-rich genes ( ● with a=0.62) and its intronless genes ( ○ with a=0.49), see table (c) same as in (a) for longer distance

東海大學物理系‧計算科學總論 DNA Walk 4/4 (conti.)

東海大學物理系‧計算科學總論 Puzzle 含有 intron (無編碼)的序列,具有 long-range correlation 含有 intron (無編碼)的序列,具有 long-range correlation 全部皆為編碼序列之 cDNA ,沒有 long-range correlation ,接近於 random walk 序列 全部皆為編碼序列之 cDNA ,沒有 long-range correlation ,接近於 random walk 序列 以上結果,似與預期相反,有生物意義之序列, 才應該有 long-range correlation? 以上結果,似與預期相反,有生物意義之序列, 才應該有 long-range correlation? Solution: mosaic organization of DNA sequence (C.K. Peng et al., Phys. Rev. E 49, 1685) Solution: mosaic organization of DNA sequence (C.K. Peng et al., Phys. Rev. E 49, 1685) Non-coding 部分有很多片段大量重複,此為其 具有 long-range correlation 之來源 Non-coding 部分有很多片段大量重複,此為其 具有 long-range correlation 之來源

東海大學物理系‧計算科學總論 Music of Life 將流行性感冒病毒之 DNA 序列轉換成樂譜:

東海大學物理系‧計算科學總論 Linguistic Analysis Ref.: R. N. Mantegna et al., Phys. Rev. E 52, 2939 (1995) Zipf law: Zipf law: Counting f, the frequency of occurrence of words in a given text. f of each word is ordered from the most frequent to the least one. The position of each word in the ordered list is the rank R. Counting f, the frequency of occurrence of words in a given text. f of each word is ordered from the most frequent to the least one. The position of each word in the ordered list is the rank R. In nature languages, the Zipf law is satisfied with ζclose to 1. In nature languages, the Zipf law is satisfied with ζclose to 1.

東海大學物理系‧計算科學總論 Linguistic Analysis (conti.) Use “n-tuple” Zipf analysis instead of the conventional one: the length of “word” is fixed as n Use “n-tuple” Zipf analysis instead of the conventional one: the length of “word” is fixed as n Natural language (English), computer language (UNIX binary code) and DNA sequences are analyzed by this method Natural language (English), computer language (UNIX binary code) and DNA sequences are analyzed by this method

東海大學物理系‧計算科學總論 Linguistic Analysis (conti.)

東海大學物理系‧計算科學總論 Linguistic Analysis (conti.)

東海大學物理系‧計算科學總論 Linguistic Analysis (conti.)

東海大學物理系‧計算科學總論

Puzzle: Non-coding sequence: satisfies Zipf law as the natural or computer languages Non-coding sequence: satisfies Zipf law as the natural or computer languages Coding sequence: doesn’t satisfy Zipf law but the logarithmic form: Coding sequence: doesn’t satisfy Zipf law but the logarithmic form: Does this mean, there are some biological meaning in the non-coding region? Does this mean, there are some biological meaning in the non-coding region?

東海大學物理系‧計算科學總論 Linguistic Analysis of Heartbeat Ref. A.C.C. Yang et al., Phys. Rev. Lett. 90, (2003) {x 1,x }: interbeat interval , I n =0 (1) if x n ≦ (>) x n-1

東海大學物理系‧計算科學總論 Linguistic Analysis of Heartbeat (conti.) Zipf’s law

東海大學物理系‧計算科學總論 Linguistic Analysis of Heartbeat (conti.) “Distance” between different sequences:

東海大學物理系‧計算科學總論 Linguistic Analysis of Heartbeat (conti.)

東海大學物理系‧計算科學總論 Linguistic Analysis of Heartbeat (conti.)

東海大學物理系‧計算科學總論 Visualize the Complete Genome 利用符號動力學 (symbolic dynamics) 方法,可以將物種 的完整 DNA 序列圖像化,是 一種粗粒化的方式,雖然失 去一些細節,然而卻能使某 些重要的特性一目了然。右 圖為 Methanococcus jannaschii (第一種完成定序的古細菌) 的完整序列之圖像顯示。 B. L. Hao et al., Chaos, Solitons and Fractals, 11, (2000).

東海大學物理系‧計算科學總論 Method for Visualization 將序列圖像化的方法: 1. 設定子序列長度,例如 為 2 2. 將一單位正方形分割為 四等分,其所代表的鹼 基如圖所示。 3. 將每一小格再細分為四 格,亦以同樣的相對位 置訂定對應鹼基。 GC ATGCGGCGCCGAGTCACT AGACTGTC AAATTATT

東海大學物理系‧計算科學總論 Method for Visualization (conti.) 4. 統計序列中各長度為 2 之子序列出現的次數, 例如下列序列: AATCGGACGTAACC GTAATATAGG ,則其 出現次數如右表所示。 5. 將各出現頻率依高低以 不同的顏色表示,顏色 越深者表出現次數越多。 6. 所得之圖稱為該物種之 Genome Portrait 。 GC0GG2CG3CC1 GA1GT2CA0CT0 AG1AC2TG0TC1 AA3AT3TA4TT0

東海大學物理系‧計算科學總論 Statistical Properties 如果 DNA 序列是 隨機序列,則各 個子序列出現的 機率應該差不多, 但是由所研究的 幾個序列顯示, 出現機率的分佈 極不均勻,因此 DNA 序列顯然不 是一個隨機序列。

東海大學物理系‧計算科學總論 Genome Maps of Different Species 對不同的物種可以作相同的分析, 發現有些物種的 Genome Map 很類似, 有些則差距較大。這種方法可能可 以作為分類或是演化學研究的方法。

東海大學物理系‧計算科學總論 Why so few? 既然 DNA 序列的子 序列分佈不均勻, 「經常出現」與「較 少出現」的子序列, 必然有其生物意義。 先由「較少出現」者 來看,在此圖形上似 乎顯示出某種碎形 ( fractal )的特性? 這是為了「躲避」限 制內切脢的攻擊。