Download presentation
Presentation is loading. Please wait.
1
Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理
2
生物學家最感興趣的:基因圖譜
3
Music of Life 將流行性感冒病毒之 DNA 序列轉換成樂譜: 將流行性感冒病毒之 DNA 序列轉換成樂譜:
4
Z Curve R. Zhang, and C. T. Zhang J. Biomol. Struc. Dynamics 11, 767-782.
5
核苷酸的三種特性 嘌呤( A, G ) vs 嘧啶( C, T ) 嘌呤( A, G ) vs 嘧啶( C, T ) 強鍵( C, G ) vs 弱鍵( A, T ) 強鍵( C, G ) vs 弱鍵( A, T ) 氨基( A, C ) vs 酮基( G, T ) 氨基( A, C ) vs 酮基( G, T )
7
什麼是「 Z 曲線」? 對於任何一個 DNA 序列,若由第一個到第 n 個鹼 基中, A, T, C, G 出現的個數各為 A n, T n, C n, G n 對於任何一個 DNA 序列,若由第一個到第 n 個鹼 基中, A, T, C, G 出現的個數各為 A n, T n, C n, G n 例如以下序列: AATTGCATCCCGAGG ,則 ( A n, T n, C n, G n )為: 例如以下序列: AATTGCATCCCGAGG ,則 ( A n, T n, C n, G n )為: n=1 :( 1,0,0,0 ) n=1 :( 1,0,0,0 ) n=5 :( 2,2,0,1) n=5 :( 2,2,0,1) n=10 :( 3,3,3,1 ) n=10 :( 3,3,3,1 ) n=15 :( 4,3,4,4 ) n=15 :( 4,3,4,4 )
8
什麼是「 Z 曲線」? 接著定義三維座標 R n =(x n, y n, z n ) ,其中 x n, y n, z n 定義為: 接著定義三維座標 R n =(x n, y n, z n ) ,其中 x n, y n, z n 定義為: x n =2(A n +G n )-n x n =2(A n +G n )-n y n =2(A n +C n )-n y n =2(A n +C n )-n z n =2(A n +T n )-n z n =2(A n +T n )-n 以前述序列為例 AATTGCATCCCGAGG : 以前述序列為例 AATTGCATCCCGAGG : n=1 :( 1,0,0,0 ) → R n =(1,1,1) n=1 :( 1,0,0,0 ) → R n =(1,1,1) n=5 :( 2,2,0,1) → R n =(1,-1,3) n=5 :( 2,2,0,1) → R n =(1,-1,3) n=10 :( 3,3,3,1 ) → R n =(-2,2,2) n=10 :( 3,3,3,1 ) → R n =(-2,2,2) n=15 :( 4,3,4,4 ) → R n =(1,1,-1) n=15 :( 4,3,4,4 ) → R n =(1,1,-1)
9
Z 曲線的意義 x n =2(A n +G n )-n → x n >0 表嘌呤類較多,嘧啶類較 少 x n =2(A n +G n )-n → x n >0 表嘌呤類較多,嘧啶類較 少 y n =2(A n +C n )-n → y n >0 表氨基類較多,酮基類較 少 y n =2(A n +C n )-n → y n >0 表氨基類較多,酮基類較 少 z n =2(A n +T n )-n → zn>0 表弱鍵結較多,強鍵結較 少 z n =2(A n +T n )-n → zn>0 表弱鍵結較多,強鍵結較 少 若有一序列總長度為 N ,則可以由以上定義算出 R n ( N=1,2,3……,N ),並在三維空間中畫出軌跡 若有一序列總長度為 N ,則可以由以上定義算出 R n ( N=1,2,3……,N ),並在三維空間中畫出軌跡 亦可將足標 n 視為「時間」,畫出 x(n),y(n),z(n) 亦可將足標 n 視為「時間」,畫出 x(n),y(n),z(n)
10
大腸桿菌之 Z 曲線
11
DNA Walk C.K. Peng et al. Nature 356, 168 (1992).
12
Random Walk 什麼是「無規行走」( Random Walk )? 什麼是「無規行走」( Random Walk )? 一維:丟一枚銅板,出現正面則向前一步,出現背面則向 後一步 一維:丟一枚銅板,出現正面則向前一步,出現背面則向 後一步 二維:丟兩枚銅板,出現「++」則向前、「+-」向後、 「-+」向左、「--」向右 二維:丟兩枚銅板,出現「++」則向前、「+-」向後、 「-+」向左、「--」向右 如果沒有作弊,平均而言,走過很多步以後,會回到原點 附近 如果沒有作弊,平均而言,走過很多步以後,會回到原點 附近 但是不會剛好回到原點,而是在距離原點 √N 的範圍之內 但是不會剛好回到原點,而是在距離原點 √N 的範圍之內 寫成數學表示法: Y(N)=0± √N 。若把標準差寫為 F(N) , 則 F(N)= √N 或 N 0.5 寫成數學表示法: Y(N)=0± √N 。若把標準差寫為 F(N) , 則 F(N)= √N 或 N 0.5 利用電腦程式模擬看看:
13
DNA Walk 如果我們不用丟骰子的方式來決定往哪個方向走, 而是利用 DNA 序列來決定,結果如何? 如果我們不用丟骰子的方式來決定往哪個方向走, 而是利用 DNA 序列來決定,結果如何? 一維 DNA walk 方法:依序讀入 DNA 序列,如果 讀到 C, T (嘧啶)則向前一步,如果讀到 A, G (嘌呤)則向後退一步 一維 DNA walk 方法:依序讀入 DNA 序列,如果 讀到 C, T (嘧啶)則向前一步,如果讀到 A, G (嘌呤)則向後退一步 二維 DNA walk 方法:四種核甘酸剛好對應四個 方向 二維 DNA walk 方法:四種核甘酸剛好對應四個 方向
15
麵包酵母菌第三及第八條染色體之一維 DNA Walk
16
麵包酵母菌第二條染色體之二維 DNA Walk
17
關於一維 Walker 的分析 比較三種「走法」:前兩種是我們前面介紹過的 Random walk 以及 DNA walk 比較三種「走法」:前兩種是我們前面介紹過的 Random walk 以及 DNA walk 第三種是 Fibonacci walk: 利用所謂的 Fibonacci 數列方法產生一個「假的」 DNA 序列 第三種是 Fibonacci walk: 利用所謂的 Fibonacci 數列方法產生一個「假的」 DNA 序列 由 G 開始 →G 變成 GC→G 變成 GC , C 變成 G ( GCG ) →GCGGC→GCGGCGCG…… 由 G 開始 →G 變成 GC→G 變成 GC , C 變成 G ( GCG ) →GCGGC→GCGGCGCG…… 產生出來的序列再用 DNA walk 的方法去走,得 到下圖 產生出來的序列再用 DNA walk 的方法去走,得 到下圖
18
DNA Walk (conti.) Fluctuations: Fluctuations: Correlation: Correlation: Random sequence and short correlated sequence: Random sequence and short correlated sequence: Long-range correlated sequence: Long-range correlated sequence:
19
F(N) N
20
關於一維 Walker 的分析(續) 由 F(N)=N 的行為看來,這三種序列有很大的不 同: 由 F(N)=N 的行為看來,這三種序列有很大的不 同: Random walk: = 0.5 Random walk: = 0.5 Human Ch22: ~ 0.6 Human Ch22: ~ 0.6 Fibonacci: << 0.5 Fibonacci: << 0.5 Random walk 裡面不含資訊(全是隨機亂數), 因此 =0.5 表示「資訊量最低」 Random walk 裡面不含資訊(全是隨機亂數), 因此 =0.5 表示「資訊量最低」 Fibonacci 序列有嚴謹的規則,所以 偏離 0.5 很遠 Fibonacci 序列有嚴謹的規則,所以 偏離 0.5 很遠 DNA ? DNA ? “ 有點亂又不是太亂 ”
21
DNA Walk (conti.) (a) intron-containing -cardiac myosin (● with a=0.67) and its cDNA (○ with a=0.49) (b) ● with a=0.62) and its intronless genes (○ with a=0.49), see table (b) intron-rich genes (● with a=0.62) and its intronless genes (○ with a=0.49), see table (c) same as in (a) for longer distance
22
DNA Walk (conti.)
23
奇怪的是 …… DNA 序列中有分 coding (gene) 以及 non- coding (junk, intron) 區域,我們很合理的猜測, 編碼區應該是「含有資訊」,而非編碼區是接 近亂數序列、不含資訊的序列 DNA 序列中有分 coding (gene) 以及 non- coding (junk, intron) 區域,我們很合理的猜測, 編碼區應該是「含有資訊」,而非編碼區是接 近亂數序列、不含資訊的序列 可是根據對編碼區與非編碼區分別計算 的結 果 …… 可是根據對編碼區與非編碼區分別計算 的結 果 …… 編碼區的 = 0.5 ,非編碼區的 ~ 0.6 !
24
雖然還是搞不清楚原因,不過還是提供了一 個判斷編碼區或非編碼區的方法:
25
DNA 「剪不斷,理還亂?」 當 ≠0.5 時,表示這個序列有「 long range correlation 」,也就是第 x 步會與第 x+N 步有關 當 ≠0.5 時,表示這個序列有「 long range correlation 」,也就是第 x 步會與第 x+N 步有關 DNA 的 ≠0.5 ,也就表示 DNA 序列存在某種規 則, but what ? DNA 的 ≠0.5 ,也就表示 DNA 序列存在某種規 則, but what ? 一個可能性: DNA 的電子傳導( S. Roche et al. ) 一個可能性: DNA 的電子傳導( S. Roche et al. ) DNA 的電子傳導性較 random sequence 好 DNA 的電子傳導性較 random sequence 好 DNA 的電傳性質是目前一個非常重要的問題 DNA 的電傳性質是目前一個非常重要的問題
27
二維 DNA Walk 分析 Diffusion Coefficients of Two-Dimensional Viral DNA Walks, T.-H Hsu and S.-L. Nyeo (楊緒濃,成功大學物理 系), Phys. Rev. E 67, 051991 (2003). Diffusion Coefficients of Two-Dimensional Viral DNA Walks, T.-H Hsu and S.-L. Nyeo (楊緒濃,成功大學物理 系), Phys. Rev. E 67, 051991 (2003).
28
Definition of Diffusion Coefficient
32
Still an open question!
33
Linguistic Analysis R. N. Mantegna et al., Phys. Rev. E 52, 2939 (1995)
34
Linguistic Analysis Ref.: R. N. Mantegna et al., Phys. Rev. E 52, 2939 (1995) Ref.: R. N. Mantegna et al., Phys. Rev. E 52, 2939 (1995) Zipf law: Zipf law: Counting f, the frequency of occurrence of words in a given text. f of each word is ordered from the most frequent to the least one. The position of each word in the ordered list is the rank R. Counting f, the frequency of occurrence of words in a given text. f of each word is ordered from the most frequent to the least one. The position of each word in the ordered list is the rank R. In nature languages, the Zipf law is satisfied with ζclose to 1. In nature languages, the Zipf law is satisfied with ζclose to 1.
35
Linguistic Analysis (conti.) Use “n-tuple” Zipf analysis instead of the conventional one: the length of “word” is fixed as n Use “n-tuple” Zipf analysis instead of the conventional one: the length of “word” is fixed as n Natural language (English), computer language (UNIX binary code) and DNA sequences are analyzed by this method Natural language (English), computer language (UNIX binary code) and DNA sequences are analyzed by this method
36
Linguistic Analysis (conti.)
41
Puzzle: Non-coding sequence: satisfies Zipf law as the natural or computer languages Non-coding sequence: satisfies Zipf law as the natural or computer languages Coding sequence: doesn’t satisfy Zipf law but the logarithmic form: Coding sequence: doesn’t satisfy Zipf law but the logarithmic form: Does this mean, there are some biological meaning in the non-coding region? Does this mean, there are some biological meaning in the non-coding region?
42
Visualize the Complete Genome 利用符號動力學 (symbolic dynamics) 方法,可以 將物種的完整 DNA 序列圖像化,是一種粗粒化的方 式,雖然失去一些細節,然而卻能使某些重要的特 性一目了然
43
Method for Visualization 將序列圖像化的方法: 將序列圖像化的方法: 1. 設定子序列長度,例如為 2 2. 將一單位正方形分割為四 等分,其所代表的鹼基如 圖所示。 3. 將每一小格再細分為四格, 亦以同樣的相對位置訂定 對應鹼基。 GC ATGCGGCGCCGAGTCACT AGACTGTC AAATTATT
44
Method for Visualization (conti.) 統計序列中各長度為 2 之 子序列出現的次數,例如 下列序列: AATCGGACGTAACC GTAATATAGG ,則其出 現次數如右表所示。 統計序列中各長度為 2 之 子序列出現的次數,例如 下列序列: AATCGGACGTAACC GTAATATAGG ,則其出 現次數如右表所示。 將各出現頻率依高低以不 同的顏色表示,顏色越深 者表出現次數越多。 將各出現頻率依高低以不 同的顏色表示,顏色越深 者表出現次數越多。 所得之圖稱為該物種之 Genome Portrait 。 所得之圖稱為該物種之 Genome Portrait 。 GC0GG2CG3CC1 GA1GT2CA0CT0 AG1AC2TG0TC1 AA3AT3TA4TT0
45
Statistical Properties 如果 DNA 序列是隨機 序列,則各個子序列 出現的機率應該差不 多,但是由所研究的 幾個序列顯示,出現 機率的分佈極不均勻, 因此 DNA 序列顯然不 是一個隨機序列。
46
Genome Maps of Different Species 對不同的物種可以作相同的分析,發現有 些物種的 Genome Map 很類似,有些則差 距較大。這種方法可能可以作為分類或是 演化學研究的方法。 對不同的物種可以作相同的分析,發現有 些物種的 Genome Map 很類似,有些則差 距較大。這種方法可能可以作為分類或是 演化學研究的方法。
47
Why so few? 既然 DNA 序列的子 序列分佈不均勻, 「經常出現」與「較 少出現」的子序列, 必然有其生物意義。 先由「較少出現」者 來看,在此圖形上似 乎顯示出某種碎形 ( fractal )的特性? 這是為了「躲避」限 制內切脢的攻擊。
48
DNA 中的迴文 經過分析的結果,發現這 些「躲避」的字串都呈現 迴文的型態,如: CTAG , GGACC , CCTAGG 等。 經過分析的結果,發現這 些「躲避」的字串都呈現 迴文的型態,如: CTAG , GGACC , CCTAGG 等。 當某些酵素探測到這類序 列時可以與之結合,並由 此處將 DNA 長鏈切斷, 造成該生物死亡 當某些酵素探測到這類序 列時可以與之結合,並由 此處將 DNA 長鏈切斷, 造成該生物死亡 因此這些「 DNA 肖像」反 映出這個物種的演化痕跡 因此這些「 DNA 肖像」反 映出這個物種的演化痕跡
49
結語 物理學家處理 DNA 特性的方式,與生物學家大 為不同 物理學家處理 DNA 特性的方式,與生物學家大 為不同 生物學家希望能將每個生物的 DNA 序列的每個 基因找出來,並且探討這些基因在生物體內的功 能 生物學家希望能將每個生物的 DNA 序列的每個 基因找出來,並且探討這些基因在生物體內的功 能 物理學家喜歡找「共同規則」,所以經常將各種 不同物種的序列拿來一起分析,希望找出共同點 物理學家喜歡找「共同規則」,所以經常將各種 不同物種的序列拿來一起分析,希望找出共同點 但是由於目前資料量過於龐大,因此物理學家先 用所熟悉統計工具來「玩」 DNA 但是由於目前資料量過於龐大,因此物理學家先 用所熟悉統計工具來「玩」 DNA 只要有好點子,都可以來玩玩看! 只要有好點子,都可以來玩玩看!
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.