Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理.

Slides:



Advertisements
Similar presentations
1 生物計算期末作業 暨南大學資訊工程系 2003/05/13. 2 compare f1 f2  只比較兩個檔案 f1 與 f2 ,比完後將結果輸出。 compare directory  以兩兩比對的方式,比對一個目錄下所有檔案的相 似程度。  將相似度很高的檔案做成報表輸出,報表中至少要.
Advertisements

Divide-and-Conquer. 什麼是 divide-and-conquer ? Divide 就是把問題分割 Conquer 則是把答案結合起來.
Chapter 10 馬可夫鏈 緒言 如果讀者仔細觀察日常生活中所發生的 諸多事件,必然會發現有些事件的未來 發展或演變與該事件現階段的狀況全然 無關,這種事件稱為獨立試行過程 (process of independent trials) ;而另一些 事件則會受到該事件現階段的狀況影響。
布林代數的應用--- 全及項(最小項)和全或項(最大項)展開式
第七章 抽樣與抽樣分配 蒐集統計資料最常見的方式是抽查。這 牽涉到兩個問題: 抽出的樣本是否具有代表性?是否能反應出母體的特徵?
:Word Morphing ★★☆☆☆ 題組: Problem Set Archive with Online Judge 題號: 10508:word morphing 解題者:楊家豪 解題日期: 2006 年 5 月 21 日 題意: 第一行給你兩個正整數, 第一個代表下面會出現幾個字串,
Section 1.2 Describing Distributions with Numbers 用數字描述分配.
第二章 太陽能電池的基本原理 及其結構 2-1 太陽能電池的基本原理 2-2 太陽能電池的基本結構 2-3 太陽能電池的製作.
Reference, primitive, call by XXX 必也正名乎 誌謝 : 部份文字取於前輩 TAHO 的文章.
期末專題 - 吊人頭遊戲 第 35 組 組員 : 電機系 49841XXXX XXX 電機系 49841OOOO OOO.
指導教授:陳淑媛 學生:李宗叡 李卿輔.  利用下列三種方法 (Edge Detection 、 Local Binary Pattern 、 Structured Local Edge Pattern) 來判斷是否為場景變換,以方便使用者來 找出所要的片段。
亂數產生器安全性評估 之統計測試 SEC HW7 姓名:翁玉芬 學號:
Review of Chapter 3 - 已學過的 rules( 回顧 )- 朝陽科技大學 資訊管理系 李麗華 教授.
:New Land ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11871: New Land 解題者:施博修 解題日期: 2011 年 6 月 8 日 題意:國王有一個懶兒子,為了勞動兒子,他想了一個 辦法,令他在某天早上開始走路,直到太陽下山前,靠.
: OPENING DOORS ? 題組: Problem Set Archive with Online Judge 題號: 10606: OPENING DOORS 解題者:侯沛彣 解題日期: 2006 年 6 月 11 日 題意: - 某間學校有 N 個學生,每個學生都有自己的衣物櫃.
STAT0_sampling Random Sampling  母體: Finite population & Infinity population  由一大小為 N 的有限母體中抽出一樣本數為 n 的樣 本,若每一樣本被抽出的機率是一樣的,這樣本稱 為隨機樣本 (random sample)
Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2005/5/15 生物物理.
第一章 信號與系統初論 信號的簡介與DSP的處理方式。 系統特性與穩定性的判定方法。 以MATLAB驗證系統的線性、非時變、因果等特性。
1. 假設以下的敘述為一未提供 “ 捷徑計算 ” 能力的程式段,試用程 式設計的技巧,使此敘述經此改 寫的動作後,具有與 “ 捷徑計算 ” 之 處理方法相同之處理模式。 if and then E1 else E2 endif.
Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點 兩座標軸的刻度不同,散佈圖的外觀呈 現的相聯性強度,會有不同的感受。 散佈圖 2 相聯性看起來比散佈圖 1 來得強。 以統計數字相關係數做為客觀標準。
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
基礎物理總論 基礎物理總論 熱力學與統計力學(三) Statistical Mechanics 東海大學物理系 施奇廷.
Monte Carlo Simulation Part.2 Metropolis Algorithm Dept. Phys. Tunghai Univ. Numerical Methods C. T. Shih.
2009fallStat_samplec.i.1 Chap10 Sampling distribution (review) 樣本必須是隨機樣本 (random sample) ,才能代表母體 Sample mean 是一隨機變數,隨著每一次抽出來的 樣本值不同,它的值也不同,但會有規律性 為了要知道估計的精確性,必需要知道樣本平均數.
具備人臉追蹤與辨識功能的一個 智慧型數位監視系統 系統架構 在巡邏模式中 ,攝影機會左右來回巡視,並 利用動態膚色偵測得知是否有移動膚色物體, 若有移動的膚色物體則進入到追蹤模式,反之 則繼續巡視。
1 第四章 多變數函數的微分學 § 4.1 偏導數定義 定義 極限值 ■. 2 定理 極限值的基本定理 (1) 極限值的唯一性 : 若 存在,則 其值必為唯一。 (2) 若 且 ( 與 為常數 ) , 則 且 為常數且.
Chapter 13 塑模靜態觀點:物件圖 Static View : Object Diagram.
Introduction to Java Programming Lecture 17 Abstract Classes & Interfaces.
:Problem D: Bit-wise Sequence ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10232: Problem D: Bit-wise Sequence 解題者:李濟宇 解題日期: 2006 年 4 月 16.
3-3 使用幾何繪圖工具 Flash 的幾何繪圖工具包括線段工具 (Line Tool) 、橢圓形工具 (Oval Tool) 、多邊星形 工具 (Rectangle Tool) 3 種。這些工具畫出 來的幾何圖形包括了筆畫線條和填色區域, 將它們適當地組合加上有技巧地變形與配 色, 不但比鉛筆工具簡單,
第二章 供給與需求 中興大學會計學系 授課老師:簡立賢.
: Happy Number ★ ? 題組: Problem Set Archive with Online Judge 題號: 10591: Happy Number 解題者:陳瀅文 解題日期: 2006 年 6 月 6 日 題意:判斷一個正整數 N 是否為 Happy Number.
: Fast and Easy Data Compressor ★★☆☆☆ 題組: Problem Set Archive with Online Judge 題號: 10043: Fast and Easy Data Compressor 解題者:葉貫中 解題日期: 2007 年 3.
選舉制度、政府結構與政 黨體系 Cox (1997) Electoral institutions, cleavage strucuters, and the number of parties.
Chapter 2 Getting Started Insertion Sort: 能有效率地排序小數字的演算法 範例 :
: Multisets and Sequences ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11023: Multisets and Sequences 解題者:葉貫中 解題日期: 2007 年 4 月 24 日 題意:在這個題目中,我們要定義.
:Nuts for nuts..Nuts for nuts.. ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 10944:Nuts for nuts.. 解題者:楊家豪 解題日期: 2006 年 2 月 題意: 給定兩個正整數 x,y.
資料結構實習-一 參數傳遞.
1 Introduction to Java Programming Lecture 2: Basics of Java Programming Spring 2008.
: Beautiful Numbers ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11472: Beautiful Numbers 解題者:邱經達 解題日期: 2011 年 5 月 5 日 題意: 若一個 N 進位的數用到該.
Section 4.2 Probability Models 機率模式. 由實驗看機率 實驗前先列出所有可能的實驗結果。 – 擲銅板:正面或反面。 – 擲骰子: 1~6 點。 – 擲骰子兩顆: (1,1),(1,2),(1,3),… 等 36 種。 決定每一個可能的實驗結果發生機率。 – 實驗後所有的實驗結果整理得到。
函式 Function Part.2 東海大學物理系‧資訊教育 施奇廷. 遞迴( Recursion ) 函式可以「呼叫自己」,這種動作稱為 「遞迴」 此程式的執行結果相當於陷入無窮迴圈, 無法停止(只能按 Ctrl-C ) 這給我們一個暗示:函式的遞迴呼叫可以 達到部分迴圈的效果.
JAVA 程式設計與資料結構 第二十章 Searching. Sequential Searching Sequential Searching 是最簡單的一種搜尋法,此演 算法可應用在 Array 或是 Linked List 此等資料結構。 Sequential Searching 的 worst-case.
資料結構實習-二.
演算法 8-1 最大數及最小數找法 8-2 排序 8-3 二元搜尋法.
Chapter 3 Entropy : An Additional Balance Equation
-Antidifferentiation- Chapter 6 朝陽科技大學 資訊管理系 李麗華 教授.
845: Gas Station Numbers ★★★ 題組: Problem Set Archive with Online Judge 題號: 845: Gas Station Numbers. 解題者:張維珊 解題日期: 2006 年 2 月 題意: 將輸入的數字,經過重新排列組合或旋轉數字,得到比原先的數字大,
Chapter 2. Recurrence Relations (遞迴關係)
Learning Method in Multilingual Speech Recognition Author : Hui Lin, Li Deng, Jasha Droppo Professor: 陳嘉平 Reporter: 許峰閤.
Chapter 10 m-way 搜尋樹與B-Tree
描述統計 描述統計(Descriptive Statistics)-將蒐集到的資料加以整理和記錄,並以數字和統計圖表的方式來分析及解釋資料所具有的特性. 基本統計值(平均數,中位數,標準差,變異量….) 相關性測量(卡方,相關係數,迴歸…)
JAVA 程式設計與資料結構 第十六章 Hash Tables. Introduction Hash Tables 結構為一個 Array ,稱之為 Bucket array 。 如果想要新增一個物件,要根據這個物件的特性 將其加入 Hash Table 內。 Bucket Array 用 A 來代替,其.
Probability Distribution 機率分配 汪群超 12/12. 目的:產生具均等分配的數值 (Data) ,並以 『直方圖』的功能計算出數值在不同範圍內出現 的頻率,及繪製數值的分配圖,以反應出該 機率分配的特性。
1 Introduction to Java Programming Lecture 2: Basics of Java Programming Spring 2009.
5 重複迴圈 5.1 增減運算符號 增量運算符號 減量運算符號
東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷.
連續隨機變數 連續變數:時間、分數、重量、……
Teacher : Ing-Jer Huang TA : Chien-Hung Chen 2015/6/30 Course Embedded Systems : Principles and Implementations Weekly Preview Question CH7.1~CH /12/26.
1 Introduction to Java Programming Lecture 2: Basics of Java Programming Spring 2010.
: SAM I AM ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11419: SAM I AM 解題者:李重儀 解題日期: 2008 年 9 月 11 日 題意: 簡單的說,就是一個長方形的廟裡面有敵人,然 後可以橫的方向開砲或縱向開砲,每次開砲可以.
Microsoft Excel.
: Finding Paths in Grid ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11486: Finding Paths in Grid 解題者:李重儀 解題日期: 2008 年 10 月 14 日 題意:給一個 7 個 column.
:Problem E.Stone Game ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10165: Problem E.Stone Game 解題者:李濟宇 解題日期: 2006 年 3 月 26 日 題意: Jack 與 Jim.
幼兒行為觀察與記錄 第八章 事件取樣法.
CH 14-可靠度工程之數學基礎 探討重點 失效時間之機率分配 指數模式之可靠度工程.
: How many 0's? ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 11038: How many 0’s? 解題者:楊鵬宇 解題日期: 2007 年 5 月 15 日 題意:寫下題目給的 m 與 n(m
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
1 柱體與錐體 1. 找出柱體與錐體的規則 2. 柱體的命名與特性 3. 柱體的展開圖 4. 錐體的命名與特性 5. 錐體的展開圖
Presentation transcript:

Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

生物學家最感興趣的:基因圖譜

Music of Life 將流行性感冒病毒之 DNA 序列轉換成樂譜: 將流行性感冒病毒之 DNA 序列轉換成樂譜:

Z Curve R. Zhang, and C. T. Zhang J. Biomol. Struc. Dynamics 11,

核苷酸的三種特性 嘌呤( A, G ) vs 嘧啶( C, T ) 嘌呤( A, G ) vs 嘧啶( C, T ) 強鍵( C, G ) vs 弱鍵( A, T ) 強鍵( C, G ) vs 弱鍵( A, T ) 氨基( A, C ) vs 酮基( G, T ) 氨基( A, C ) vs 酮基( G, T )

什麼是「 Z 曲線」? 對於任何一個 DNA 序列,若由第一個到第 n 個鹼 基中, A, T, C, G 出現的個數各為 A n, T n, C n, G n 對於任何一個 DNA 序列,若由第一個到第 n 個鹼 基中, A, T, C, G 出現的個數各為 A n, T n, C n, G n 例如以下序列: AATTGCATCCCGAGG ,則 ( A n, T n, C n, G n )為: 例如以下序列: AATTGCATCCCGAGG ,則 ( A n, T n, C n, G n )為: n=1 :( 1,0,0,0 ) n=1 :( 1,0,0,0 ) n=5 :( 2,2,0,1) n=5 :( 2,2,0,1) n=10 :( 3,3,3,1 ) n=10 :( 3,3,3,1 ) n=15 :( 4,3,4,4 ) n=15 :( 4,3,4,4 )

什麼是「 Z 曲線」? 接著定義三維座標 R n =(x n, y n, z n ) ,其中 x n, y n, z n 定義為: 接著定義三維座標 R n =(x n, y n, z n ) ,其中 x n, y n, z n 定義為: x n =2(A n +G n )-n x n =2(A n +G n )-n y n =2(A n +C n )-n y n =2(A n +C n )-n z n =2(A n +T n )-n z n =2(A n +T n )-n 以前述序列為例 AATTGCATCCCGAGG : 以前述序列為例 AATTGCATCCCGAGG : n=1 :( 1,0,0,0 ) → R n =(1,1,1) n=1 :( 1,0,0,0 ) → R n =(1,1,1) n=5 :( 2,2,0,1) → R n =(1,-1,3) n=5 :( 2,2,0,1) → R n =(1,-1,3) n=10 :( 3,3,3,1 ) → R n =(-2,2,2) n=10 :( 3,3,3,1 ) → R n =(-2,2,2) n=15 :( 4,3,4,4 ) → R n =(1,1,-1) n=15 :( 4,3,4,4 ) → R n =(1,1,-1)

Z 曲線的意義 x n =2(A n +G n )-n → x n >0 表嘌呤類較多,嘧啶類較 少 x n =2(A n +G n )-n → x n >0 表嘌呤類較多,嘧啶類較 少 y n =2(A n +C n )-n → y n >0 表氨基類較多,酮基類較 少 y n =2(A n +C n )-n → y n >0 表氨基類較多,酮基類較 少 z n =2(A n +T n )-n → zn>0 表弱鍵結較多,強鍵結較 少 z n =2(A n +T n )-n → zn>0 表弱鍵結較多,強鍵結較 少 若有一序列總長度為 N ,則可以由以上定義算出 R n ( N=1,2,3……,N ),並在三維空間中畫出軌跡 若有一序列總長度為 N ,則可以由以上定義算出 R n ( N=1,2,3……,N ),並在三維空間中畫出軌跡 亦可將足標 n 視為「時間」,畫出 x(n),y(n),z(n) 亦可將足標 n 視為「時間」,畫出 x(n),y(n),z(n)

大腸桿菌之 Z 曲線

DNA Walk C.K. Peng et al. Nature 356, 168 (1992).

Random Walk 什麼是「無規行走」( Random Walk )? 什麼是「無規行走」( Random Walk )? 一維:丟一枚銅板,出現正面則向前一步,出現背面則向 後一步 一維:丟一枚銅板,出現正面則向前一步,出現背面則向 後一步 二維:丟兩枚銅板,出現「++」則向前、「+-」向後、 「-+」向左、「--」向右 二維:丟兩枚銅板,出現「++」則向前、「+-」向後、 「-+」向左、「--」向右 如果沒有作弊,平均而言,走過很多步以後,會回到原點 附近 如果沒有作弊,平均而言,走過很多步以後,會回到原點 附近 但是不會剛好回到原點,而是在距離原點 √N 的範圍之內 但是不會剛好回到原點,而是在距離原點 √N 的範圍之內 寫成數學表示法: Y(N)=0± √N 。若把標準差寫為 F(N) , 則 F(N)= √N 或 N 0.5 寫成數學表示法: Y(N)=0± √N 。若把標準差寫為 F(N) , 則 F(N)= √N 或 N 0.5 利用電腦程式模擬看看:

DNA Walk 如果我們不用丟骰子的方式來決定往哪個方向走, 而是利用 DNA 序列來決定,結果如何? 如果我們不用丟骰子的方式來決定往哪個方向走, 而是利用 DNA 序列來決定,結果如何? 一維 DNA walk 方法:依序讀入 DNA 序列,如果 讀到 C, T (嘧啶)則向前一步,如果讀到 A, G (嘌呤)則向後退一步 一維 DNA walk 方法:依序讀入 DNA 序列,如果 讀到 C, T (嘧啶)則向前一步,如果讀到 A, G (嘌呤)則向後退一步 二維 DNA walk 方法:四種核甘酸剛好對應四個 方向 二維 DNA walk 方法:四種核甘酸剛好對應四個 方向

麵包酵母菌第三及第八條染色體之一維 DNA Walk

麵包酵母菌第二條染色體之二維 DNA Walk

關於一維 Walker 的分析 比較三種「走法」:前兩種是我們前面介紹過的 Random walk 以及 DNA walk 比較三種「走法」:前兩種是我們前面介紹過的 Random walk 以及 DNA walk 第三種是 Fibonacci walk: 利用所謂的 Fibonacci 數列方法產生一個「假的」 DNA 序列 第三種是 Fibonacci walk: 利用所謂的 Fibonacci 數列方法產生一個「假的」 DNA 序列 由 G 開始 →G 變成 GC→G 變成 GC , C 變成 G ( GCG ) →GCGGC→GCGGCGCG…… 由 G 開始 →G 變成 GC→G 變成 GC , C 變成 G ( GCG ) →GCGGC→GCGGCGCG…… 產生出來的序列再用 DNA walk 的方法去走,得 到下圖 產生出來的序列再用 DNA walk 的方法去走,得 到下圖

DNA Walk (conti.) Fluctuations: Fluctuations: Correlation: Correlation: Random sequence and short correlated sequence: Random sequence and short correlated sequence: Long-range correlated sequence: Long-range correlated sequence:

F(N) N

關於一維 Walker 的分析(續) 由 F(N)=N  的行為看來,這三種序列有很大的不 同: 由 F(N)=N  的行為看來,這三種序列有很大的不 同: Random walk:  = 0.5 Random walk:  = 0.5 Human Ch22:  ~ 0.6 Human Ch22:  ~ 0.6 Fibonacci:  << 0.5 Fibonacci:  << 0.5 Random walk 裡面不含資訊(全是隨機亂數), 因此  =0.5 表示「資訊量最低」 Random walk 裡面不含資訊(全是隨機亂數), 因此  =0.5 表示「資訊量最低」 Fibonacci 序列有嚴謹的規則,所以  偏離 0.5 很遠 Fibonacci 序列有嚴謹的規則,所以  偏離 0.5 很遠 DNA ? DNA ? “ 有點亂又不是太亂 ”

DNA Walk (conti.) (a) intron-containing  -cardiac myosin (● with a=0.67) and its cDNA (○ with a=0.49) (b) ● with a=0.62) and its intronless genes (○ with a=0.49), see table (b) intron-rich genes (● with a=0.62) and its intronless genes (○ with a=0.49), see table (c) same as in (a) for longer distance

DNA Walk (conti.)

奇怪的是 …… DNA 序列中有分 coding (gene) 以及 non- coding (junk, intron) 區域,我們很合理的猜測, 編碼區應該是「含有資訊」,而非編碼區是接 近亂數序列、不含資訊的序列 DNA 序列中有分 coding (gene) 以及 non- coding (junk, intron) 區域,我們很合理的猜測, 編碼區應該是「含有資訊」,而非編碼區是接 近亂數序列、不含資訊的序列 可是根據對編碼區與非編碼區分別計算  的結 果 …… 可是根據對編碼區與非編碼區分別計算  的結 果 …… 編碼區的  = 0.5 ,非編碼區的  ~ 0.6 !

雖然還是搞不清楚原因,不過還是提供了一 個判斷編碼區或非編碼區的方法:

DNA 「剪不斷,理還亂?」 當  ≠0.5 時,表示這個序列有「 long range correlation 」,也就是第 x 步會與第 x+N 步有關 當  ≠0.5 時,表示這個序列有「 long range correlation 」,也就是第 x 步會與第 x+N 步有關 DNA 的  ≠0.5 ,也就表示 DNA 序列存在某種規 則, but what ? DNA 的  ≠0.5 ,也就表示 DNA 序列存在某種規 則, but what ? 一個可能性: DNA 的電子傳導( S. Roche et al. ) 一個可能性: DNA 的電子傳導( S. Roche et al. ) DNA 的電子傳導性較 random sequence 好 DNA 的電子傳導性較 random sequence 好 DNA 的電傳性質是目前一個非常重要的問題 DNA 的電傳性質是目前一個非常重要的問題

二維 DNA Walk 分析 Diffusion Coefficients of Two-Dimensional Viral DNA Walks, T.-H Hsu and S.-L. Nyeo (楊緒濃,成功大學物理 系), Phys. Rev. E 67, (2003). Diffusion Coefficients of Two-Dimensional Viral DNA Walks, T.-H Hsu and S.-L. Nyeo (楊緒濃,成功大學物理 系), Phys. Rev. E 67, (2003).

Definition of Diffusion Coefficient

Still an open question!

Linguistic Analysis R. N. Mantegna et al., Phys. Rev. E 52, 2939 (1995)

Linguistic Analysis Ref.: R. N. Mantegna et al., Phys. Rev. E 52, 2939 (1995) Ref.: R. N. Mantegna et al., Phys. Rev. E 52, 2939 (1995) Zipf law: Zipf law: Counting f, the frequency of occurrence of words in a given text. f of each word is ordered from the most frequent to the least one. The position of each word in the ordered list is the rank R. Counting f, the frequency of occurrence of words in a given text. f of each word is ordered from the most frequent to the least one. The position of each word in the ordered list is the rank R. In nature languages, the Zipf law is satisfied with ζclose to 1. In nature languages, the Zipf law is satisfied with ζclose to 1.

Linguistic Analysis (conti.) Use “n-tuple” Zipf analysis instead of the conventional one: the length of “word” is fixed as n Use “n-tuple” Zipf analysis instead of the conventional one: the length of “word” is fixed as n Natural language (English), computer language (UNIX binary code) and DNA sequences are analyzed by this method Natural language (English), computer language (UNIX binary code) and DNA sequences are analyzed by this method

Linguistic Analysis (conti.)

Puzzle: Non-coding sequence: satisfies Zipf law as the natural or computer languages Non-coding sequence: satisfies Zipf law as the natural or computer languages Coding sequence: doesn’t satisfy Zipf law but the logarithmic form: Coding sequence: doesn’t satisfy Zipf law but the logarithmic form: Does this mean, there are some biological meaning in the non-coding region? Does this mean, there are some biological meaning in the non-coding region?

Visualize the Complete Genome 利用符號動力學 (symbolic dynamics) 方法,可以 將物種的完整 DNA 序列圖像化,是一種粗粒化的方 式,雖然失去一些細節,然而卻能使某些重要的特 性一目了然

Method for Visualization 將序列圖像化的方法: 將序列圖像化的方法: 1. 設定子序列長度,例如為 2 2. 將一單位正方形分割為四 等分,其所代表的鹼基如 圖所示。 3. 將每一小格再細分為四格, 亦以同樣的相對位置訂定 對應鹼基。 GC ATGCGGCGCCGAGTCACT AGACTGTC AAATTATT

Method for Visualization (conti.) 統計序列中各長度為 2 之 子序列出現的次數,例如 下列序列: AATCGGACGTAACC GTAATATAGG ,則其出 現次數如右表所示。 統計序列中各長度為 2 之 子序列出現的次數,例如 下列序列: AATCGGACGTAACC GTAATATAGG ,則其出 現次數如右表所示。 將各出現頻率依高低以不 同的顏色表示,顏色越深 者表出現次數越多。 將各出現頻率依高低以不 同的顏色表示,顏色越深 者表出現次數越多。 所得之圖稱為該物種之 Genome Portrait 。 所得之圖稱為該物種之 Genome Portrait 。 GC0GG2CG3CC1 GA1GT2CA0CT0 AG1AC2TG0TC1 AA3AT3TA4TT0

Statistical Properties 如果 DNA 序列是隨機 序列,則各個子序列 出現的機率應該差不 多,但是由所研究的 幾個序列顯示,出現 機率的分佈極不均勻, 因此 DNA 序列顯然不 是一個隨機序列。

Genome Maps of Different Species 對不同的物種可以作相同的分析,發現有 些物種的 Genome Map 很類似,有些則差 距較大。這種方法可能可以作為分類或是 演化學研究的方法。 對不同的物種可以作相同的分析,發現有 些物種的 Genome Map 很類似,有些則差 距較大。這種方法可能可以作為分類或是 演化學研究的方法。

Why so few? 既然 DNA 序列的子 序列分佈不均勻, 「經常出現」與「較 少出現」的子序列, 必然有其生物意義。 先由「較少出現」者 來看,在此圖形上似 乎顯示出某種碎形 ( fractal )的特性? 這是為了「躲避」限 制內切脢的攻擊。

DNA 中的迴文 經過分析的結果,發現這 些「躲避」的字串都呈現 迴文的型態,如: CTAG , GGACC , CCTAGG 等。 經過分析的結果,發現這 些「躲避」的字串都呈現 迴文的型態,如: CTAG , GGACC , CCTAGG 等。 當某些酵素探測到這類序 列時可以與之結合,並由 此處將 DNA 長鏈切斷, 造成該生物死亡 當某些酵素探測到這類序 列時可以與之結合,並由 此處將 DNA 長鏈切斷, 造成該生物死亡 因此這些「 DNA 肖像」反 映出這個物種的演化痕跡 因此這些「 DNA 肖像」反 映出這個物種的演化痕跡

結語 物理學家處理 DNA 特性的方式,與生物學家大 為不同 物理學家處理 DNA 特性的方式,與生物學家大 為不同 生物學家希望能將每個生物的 DNA 序列的每個 基因找出來,並且探討這些基因在生物體內的功 能 生物學家希望能將每個生物的 DNA 序列的每個 基因找出來,並且探討這些基因在生物體內的功 能 物理學家喜歡找「共同規則」,所以經常將各種 不同物種的序列拿來一起分析,希望找出共同點 物理學家喜歡找「共同規則」,所以經常將各種 不同物種的序列拿來一起分析,希望找出共同點 但是由於目前資料量過於龐大,因此物理學家先 用所熟悉統計工具來「玩」 DNA 但是由於目前資料量過於龐大,因此物理學家先 用所熟悉統計工具來「玩」 DNA 只要有好點子,都可以來玩玩看! 只要有好點子,都可以來玩玩看!