DNA 序列的統計遊戲 Statistical Games in DNA Sequences 東海大學物理系‧施奇廷 2004/10/05 計算科學總論.

Slides:



Advertisements
Similar presentations
1 生物計算期末作業 暨南大學資訊工程系 2003/05/13. 2 compare f1 f2  只比較兩個檔案 f1 與 f2 ,比完後將結果輸出。 compare directory  以兩兩比對的方式,比對一個目錄下所有檔案的相 似程度。  將相似度很高的檔案做成報表輸出,報表中至少要.
Advertisements

Divide-and-Conquer. 什麼是 divide-and-conquer ? Divide 就是把問題分割 Conquer 則是把答案結合起來.
布林代數的應用--- 全及項(最小項)和全或項(最大項)展開式
第七章 抽樣與抽樣分配 蒐集統計資料最常見的方式是抽查。這 牽涉到兩個問題: 抽出的樣本是否具有代表性?是否能反應出母體的特徵?
Section 1.2 Describing Distributions with Numbers 用數字描述分配.
第二章 太陽能電池的基本原理 及其結構 2-1 太陽能電池的基本原理 2-2 太陽能電池的基本結構 2-3 太陽能電池的製作.
3Com Switch 4500 切VLAN教學.
Reference, primitive, call by XXX 必也正名乎 誌謝 : 部份文字取於前輩 TAHO 的文章.
期末專題 - 吊人頭遊戲 第 35 組 組員 : 電機系 49841XXXX XXX 電機系 49841OOOO OOO.
指導教授:陳淑媛 學生:李宗叡 李卿輔.  利用下列三種方法 (Edge Detection 、 Local Binary Pattern 、 Structured Local Edge Pattern) 來判斷是否為場景變換,以方便使用者來 找出所要的片段。
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參 實驗法.
亂數產生器安全性評估 之統計測試 SEC HW7 姓名:翁玉芬 學號:
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
Review of Chapter 3 - 已學過的 rules( 回顧 )- 朝陽科技大學 資訊管理系 李麗華 教授.
: OPENING DOORS ? 題組: Problem Set Archive with Online Judge 題號: 10606: OPENING DOORS 解題者:侯沛彣 解題日期: 2006 年 6 月 11 日 題意: - 某間學校有 N 個學生,每個學生都有自己的衣物櫃.
STAT0_sampling Random Sampling  母體: Finite population & Infinity population  由一大小為 N 的有限母體中抽出一樣本數為 n 的樣 本,若每一樣本被抽出的機率是一樣的,這樣本稱 為隨機樣本 (random sample)
Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2005/5/15 生物物理.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
基礎物理總論 基礎物理總論 熱力學與統計力學(三) Statistical Mechanics 東海大學物理系 施奇廷.
1 政治大學東亞所選修 -- 計量分析與中國大陸研究黃智聰 政治大學東亞所選修 課程名稱:計量分析與中國大陸研究 (量化分析) 授課老師:黃智聰 授課內容:時間序列與橫斷面資料的共用 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge, (2001),
Monte Carlo Simulation Part.2 Metropolis Algorithm Dept. Phys. Tunghai Univ. Numerical Methods C. T. Shih.
2009fallStat_samplec.i.1 Chap10 Sampling distribution (review) 樣本必須是隨機樣本 (random sample) ,才能代表母體 Sample mean 是一隨機變數,隨著每一次抽出來的 樣本值不同,它的值也不同,但會有規律性 為了要知道估計的精確性,必需要知道樣本平均數.
1 第四章 多變數函數的微分學 § 4.1 偏導數定義 定義 極限值 ■. 2 定理 極限值的基本定理 (1) 極限值的唯一性 : 若 存在,則 其值必為唯一。 (2) 若 且 ( 與 為常數 ) , 則 且 為常數且.
Chapter 13 塑模靜態觀點:物件圖 Static View : Object Diagram.
Introduction to Java Programming Lecture 17 Abstract Classes & Interfaces.
:Problem D: Bit-wise Sequence ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10232: Problem D: Bit-wise Sequence 解題者:李濟宇 解題日期: 2006 年 4 月 16.
: The largest Clique ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11324: The largest Clique 解題者:李重儀 解題日期: 2008 年 11 月 24 日 題意: 簡單來說,給你一個 directed.
第三部分:研究設計 ( 二): 研究工具的信效度 與研究效度 (第九章之第 306 頁 -308 頁;第四章)
3-3 使用幾何繪圖工具 Flash 的幾何繪圖工具包括線段工具 (Line Tool) 、橢圓形工具 (Oval Tool) 、多邊星形 工具 (Rectangle Tool) 3 種。這些工具畫出 來的幾何圖形包括了筆畫線條和填色區域, 將它們適當地組合加上有技巧地變形與配 色, 不但比鉛筆工具簡單,
Chapter 20 塑模動態觀點:狀態圖 Statechart Diagram. 學習目標  說明狀態圖的目的  定義狀態圖的基本記號  展示狀態圖的建構  定義活動、內部事件及遞延事件的狀態 圖記號.
第二章 供給與需求 中興大學會計學系 授課老師:簡立賢.
Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理.
: Fast and Easy Data Compressor ★★☆☆☆ 題組: Problem Set Archive with Online Judge 題號: 10043: Fast and Easy Data Compressor 解題者:葉貫中 解題日期: 2007 年 3.
東海大學物理系‧計算科學總論 Introduction to DNA and Chromosome 東海大學數學系/物理系/環科系 施奇廷.
: Playing War ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11061: Playing War 解題者:陳盈村 解題日期: 2008 年 3 月 14 日 題意:在此遊戲中,有一類玩家一旦開始攻擊, 就會不停攻擊同一對手,直到全滅對方或無法再.
短缺,盈餘與均衡. 遊戲規則  老師想出售一些學生喜歡的小食。  老師首先講出價錢,有興趣買的請舉手。
: Multisets and Sequences ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11023: Multisets and Sequences 解題者:葉貫中 解題日期: 2007 年 4 月 24 日 題意:在這個題目中,我們要定義.
:Nuts for nuts..Nuts for nuts.. ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 10944:Nuts for nuts.. 解題者:楊家豪 解題日期: 2006 年 2 月 題意: 給定兩個正整數 x,y.
資料結構實習-一 參數傳遞.
1 Introduction to Java Programming Lecture 2: Basics of Java Programming Spring 2008.
公用品.  該物品的數量不會因一人的消費而受到 影響,它可以同時地被多人享用。 角色分配  兩位同學當我的助手,負責:  其餘各人是投資者,每人擁有 $100 , 可以投資在兩種資產上。  記錄  計算  協助同學討論.
: Beautiful Numbers ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11472: Beautiful Numbers 解題者:邱經達 解題日期: 2011 年 5 月 5 日 題意: 若一個 N 進位的數用到該.
Section 4.2 Probability Models 機率模式. 由實驗看機率 實驗前先列出所有可能的實驗結果。 – 擲銅板:正面或反面。 – 擲骰子: 1~6 點。 – 擲骰子兩顆: (1,1),(1,2),(1,3),… 等 36 種。 決定每一個可能的實驗結果發生機率。 – 實驗後所有的實驗結果整理得到。
函式 Function Part.2 東海大學物理系‧資訊教育 施奇廷. 遞迴( Recursion ) 函式可以「呼叫自己」,這種動作稱為 「遞迴」 此程式的執行結果相當於陷入無窮迴圈, 無法停止(只能按 Ctrl-C ) 這給我們一個暗示:函式的遞迴呼叫可以 達到部分迴圈的效果.
資料結構實習-二.
演算法 8-1 最大數及最小數找法 8-2 排序 8-3 二元搜尋法.
: Expect the Expected ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11427: Expect the Expected 解題者:李重儀 解題日期: 2008 年 9 月 21 日 題意:玩一種遊戲 (a game.
-Antidifferentiation- Chapter 6 朝陽科技大學 資訊管理系 李麗華 教授.
東海大學物理系‧生物物理 Biological Functions of DNA 東海大學物理系‧施奇廷.
845: Gas Station Numbers ★★★ 題組: Problem Set Archive with Online Judge 題號: 845: Gas Station Numbers. 解題者:張維珊 解題日期: 2006 年 2 月 題意: 將輸入的數字,經過重新排列組合或旋轉數字,得到比原先的數字大,
Chapter 2. Recurrence Relations (遞迴關係)
Learning Method in Multilingual Speech Recognition Author : Hui Lin, Li Deng, Jasha Droppo Professor: 陳嘉平 Reporter: 許峰閤.
Chapter 10 m-way 搜尋樹與B-Tree
演算法課程 (Algorithms) 國立聯合大學 資訊管理學系 陳士杰老師 Course 7 貪婪法則 Greedy Approach.
Probability Distribution 機率分配 汪群超 12/12. 目的:產生具均等分配的數值 (Data) ,並以 『直方圖』的功能計算出數值在不同範圍內出現 的頻率,及繪製數值的分配圖,以反應出該 機率分配的特性。
1 Introduction to Java Programming Lecture 2: Basics of Java Programming Spring 2009.
專題成果報告 胺基酸功能預測開發環境 指導教授:歐昱言 邱彥豪 邱顯鈞.
東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷.
連續隨機變數 連續變數:時間、分數、重量、……
Teacher : Ing-Jer Huang TA : Chien-Hung Chen 2015/6/30 Course Embedded Systems : Principles and Implementations Weekly Preview Question CH7.1~CH /12/26.
: Wine trading in Gergovia ★★☆☆☆ 題組: Contest Volumes with Online Judge 題號: 11054: Wine trading in Gergovia 解題者:劉洙愷 解題日期: 2008 年 2 月 29 日 題意:在 Gergovia.
1 Introduction to Java Programming Lecture 2: Basics of Java Programming Spring 2010.
Microsoft Excel.
: Finding Paths in Grid ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11486: Finding Paths in Grid 解題者:李重儀 解題日期: 2008 年 10 月 14 日 題意:給一個 7 個 column.
:Problem E.Stone Game ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10165: Problem E.Stone Game 解題者:李濟宇 解題日期: 2006 年 3 月 26 日 題意: Jack 與 Jim.
第12章 團體溝通情境中的領導者.
幼兒行為觀察與記錄 第八章 事件取樣法.
CH 14-可靠度工程之數學基礎 探討重點 失效時間之機率分配 指數模式之可靠度工程.
1 柱體與錐體 1. 找出柱體與錐體的規則 2. 柱體的命名與特性 3. 柱體的展開圖 4. 錐體的命名與特性 5. 錐體的展開圖
Presentation transcript:

DNA 序列的統計遊戲 Statistical Games in DNA Sequences 東海大學物理系‧施奇廷 2004/10/05 計算科學總論

摘要 DNA 序列,可以說是生命奧秘的「有字天書」。隨著定序技 術越來越發達,投入的經費與人力越來越多,我們已經知道 的序列已經達到數百億個鹼基對之多,但是我們對這部天書 該如何讀卻所知有限。除了生物學家的正攻法之外,物理學 家們想出了一些怪招來研究這些序列,得到許多有趣的結果。 雖然距離真正破解生命密碼還有很遙遠的距離,卻也在意想 不到的方向上,跨出了一小步。在這次演講中,我們將介紹 與 DNA 有關,基本的遺傳學基本知識,重頭戲當然是要介 紹這些至今還是被許多人是為邪魔歪道或是雕蟲小技的研究 方法,告訴大家如何拿這些長篇累牘的序列來玩一場統計遊 戲。

Outline 什麼是 DNA 什麼是 DNA 基因學研究簡史 基因學研究簡史 DNA 「走路」 DNA 「走路」 DNA 的「肖像」 DNA 的「肖像」 結語 結語

What is DNA? 一種巨大的長鍊狀分子 由一連串的核苷酸組成 由一連串的核苷酸組成 生命訊息的層級 生物體 > 細胞 > DNA > 核苷酸 > 鹼基對 核苷酸鹼基 Guanine (G ,鳥嘌呤 ) , Adenine (A ,腺嘌呤 ) , Cytosine (C ,胞嘧啶 ) , Thymine (T ,胸腺嘧啶 )

What is DNA? A Photo

What is DNA? A Schematic View

Nucleotides

The Book of Life 大英百科全書 Human Genome 26 英文字母 四種核甘酸 23 卷 23 對染色體 200,000 篇文章 35,000 基因 兩億個字元 30 億鹼基對 8.5”×12×20,000 頁 長 1m× 直徑 100Å

Brief History of Genetics

1860: Mendel 1860 年代,奧地利神 父孟德爾( Gregor Mendel, ) 發現豌豆中有某種成對 的「因子」可以決定遺 傳性狀。 1860 年代,奧地利神 父孟德爾( Gregor Mendel, ) 發現豌豆中有某種成對 的「因子」可以決定遺 傳性狀。

1869: Miescher 1869 年,瑞士生物學家 Johann Miescher (1844~ 1895) 在病患繃帶的膿汁中 發現一種新物質,由於是在 細胞核中,他將之取名為 「核素」 (nuclein) ,此即為 DNA (去氧核糖核酸)。 1869 年,瑞士生物學家 Johann Miescher (1844~ 1895) 在病患繃帶的膿汁中 發現一種新物質,由於是在 細胞核中,他將之取名為 「核素」 (nuclein) ,此即為 DNA (去氧核糖核酸)。

1928: Griffith 1928 年,英國軍醫 Frederick Griffith (1881~1941) 以老鼠實驗 發現,將活的良性肺炎雙 球菌與死的惡性肺炎雙球 菌混合,可以引起轉型, 得到活的惡性菌,使老鼠 死亡。 1928 年,英國軍醫 Frederick Griffith (1881~1941) 以老鼠實驗 發現,將活的良性肺炎雙 球菌與死的惡性肺炎雙球 菌混合,可以引起轉型, 得到活的惡性菌,使老鼠 死亡。

1908: Morgan Thomas Morgan (1866 ~1945) 首先利用果蠅來研究 遺傳學,他發現有許多基因是 一起遺傳的,因此推測有些基 因在染色體上的位置是相連的, 並且訂出了果蠅的基因圖譜。 Morgan 於 1933 年獲得諾貝爾 生理及醫學獎。 Thomas Morgan (1866 ~1945) 首先利用果蠅來研究 遺傳學,他發現有許多基因是 一起遺傳的,因此推測有些基 因在染色體上的位置是相連的, 並且訂出了果蠅的基因圖譜。 Morgan 於 1933 年獲得諾貝爾 生理及醫學獎。

1942: Beadle & Tatum 1942 年, George Beadle (1903~1989) 與 Edward Tatum (1909~1975) 以麵包上 的紅黴菌實驗證實, DNA 上所帶的遺傳訊息, 其功能是製造特定的蛋 白質。他們獲得了 1958 年的諾貝爾生理與醫學 獎。 1942 年, George Beadle (1903~1989) 與 Edward Tatum (1909~1975) 以麵包上 的紅黴菌實驗證實, DNA 上所帶的遺傳訊息, 其功能是製造特定的蛋 白質。他們獲得了 1958 年的諾貝爾生理與醫學 獎。

1949: Chargaff 1949 年, Irwin Chargaff (1905~) 提出了所謂的 Chargaff 法則: DNA 中的 四種核甘酸: A 與 T 的含量 相同, C 與 G 的含量相同, 推翻了過去 ATCG 含量均勻 的假說。 1949 年, Irwin Chargaff (1905~) 提出了所謂的 Chargaff 法則: DNA 中的 四種核甘酸: A 與 T 的含量 相同, C 與 G 的含量相同, 推翻了過去 ATCG 含量均勻 的假說。

1953: The Discovery of Double Helix 1951 年, Rosalind Franklin 得到 DNA 分子 的 X-ray 繞射照片, 1953 年, Watson 與 Crick 解 出了 DNA 的雙螺旋結構, 此為分子生物學的大躍 進。 1951 年, Rosalind Franklin 得到 DNA 分子 的 X-ray 繞射照片, 1953 年, Watson 與 Crick 解 出了 DNA 的雙螺旋結構, 此為分子生物學的大躍 進。

1955: Sequence of Insulin 英國科學家 Fred Sanger 定出了胰島 素的氨基酸序列(長 度為 51 個氨基酸), 獲得 1958 年諾貝爾化 學獎。 英國科學家 Fred Sanger 定出了胰島 素的氨基酸序列(長 度為 51 個氨基酸), 獲得 1958 年諾貝爾化 學獎。

1966: Genetic Code Marshall Nirenberg 與 H. Gobind Khorana 研究小組找到了遺傳碼 ( genetic code )。在 DNA 序列中每三個核甘 酸鹼基代表一個氨基酸, 稱為一個「編碼子」 ( codon )。他們因此 獲得了 1968 年諾貝爾獎。 Marshall Nirenberg 與 H. Gobind Khorana 研究小組找到了遺傳碼 ( genetic code )。在 DNA 序列中每三個核甘 酸鹼基代表一個氨基酸, 稱為一個「編碼子」 ( codon )。他們因此 獲得了 1968 年諾貝爾獎。

1977: Sequencing the DNA Fred Sanger 開發出 「連續反應中斷」 ( chain termin-ation ) 定序法定出了一個病毒 的完整序列 5375 個碼, 這是當時最簡便的 DNA 定序法,也是後來自動 定序的基礎,使他獲得 1980 年諾貝爾化學獎。 Fred Sanger 開發出 「連續反應中斷」 ( chain termin-ation ) 定序法定出了一個病毒 的完整序列 5375 個碼, 這是當時最簡便的 DNA 定序法,也是後來自動 定序的基礎,使他獲得 1980 年諾貝爾化學獎。

1989:The Human Genome Project 20 世紀末,美國 國家衛生院、英國 衛康基金會、以及 後來加入的民間組 織 TIGR ,一起推 動了堪稱與登陸月 球重要性相當的 「人類基因組計畫」 ( Human Genome Project, HGP ) 20 世紀末,美國 國家衛生院、英國 衛康基金會、以及 後來加入的民間組 織 TIGR ,一起推 動了堪稱與登陸月 球重要性相當的 「人類基因組計畫」 ( Human Genome Project, HGP )

The Human Genome 1999 December December 2 Chromosome 22 completed (47.7 Mb) Chromosome 22 completed (47.7 Mb) 2000 May May 8 Chromosome 21 completed (50.0 Mb) Chromosome 21 completed (50.0 Mb) 2000 June June 26 Working Draft of complete human genome Working Draft of complete human genome 97% coverage, 85% complete 97% coverage, 85% complete

2000: Human Genome Draft Completed 2000 年六月,美國總 統 Bill Clinton 、英國首 相 Tony Blair 共同宣布, 第一份人類基因組草圖, 比預計的 2005 年,提 前五年完成。 2000 年六月,美國總 統 Bill Clinton 、英國首 相 Tony Blair 共同宣布, 第一份人類基因組草圖, 比預計的 2005 年,提 前五年完成。 “the most important fact of life on this Earth is our common humanity” “the most important fact of life on this Earth is our common humanity”

Growth of GenBank 年份Seq.Bp × × ×10 10

生物學家最感興趣的:基因圖譜

Music of Life 將流行性感冒病毒之 DNA 序列轉換成樂譜: 將流行性感冒病毒之 DNA 序列轉換成樂譜:

中心法則:生命訊息的傳遞 DNA RNA Protein 轉錄 轉譯 反轉錄

轉錄:拷貝藍圖 Start signal (e.g. TATAAT) and stop signal (e.g. AAAAA) Start signal (e.g. TATAAT) and stop signal (e.g. AAAAA) Splicing: keep exons (外碼子), throw out intron (內碼子) Splicing: keep exons (外碼子), throw out intron (內碼子) mRNA: concatenation of exons mRNA: concatenation of exons

Transcription: Copying

轉譯:基因碼 3-nucleotides = 1 codon 3-nucleotides = 1 codon 64 codons 64 codons 3 stop codons 3 stop codons Rest (61) codes to 20 amino acids Rest (61) codes to 20 amino acids

物理學家做了些什麼?

Random Walk 什麼是「無規行走」( Random Walk )? 什麼是「無規行走」( Random Walk )? 一維:丟一枚銅板,出現正面則向前一步,出現背面則向 後一步 一維:丟一枚銅板,出現正面則向前一步,出現背面則向 後一步 二維:丟兩枚銅板,出現「++」則向前、「+-」向後、 「-+」向左、「--」向右 二維:丟兩枚銅板,出現「++」則向前、「+-」向後、 「-+」向左、「--」向右 如果沒有作弊,平均而言,走過很多步以後,會回到原點 附近 如果沒有作弊,平均而言,走過很多步以後,會回到原點 附近 但是不會剛好回到原點,而是在距離原點 √N 的範圍之內 但是不會剛好回到原點,而是在距離原點 √N 的範圍之內 寫成數學表示法: Y(N)=0± √N 。若把標準差寫為 F(N) , 則 F(N)= √N 或 N 0.5 寫成數學表示法: Y(N)=0± √N 。若把標準差寫為 F(N) , 則 F(N)= √N 或 N 0.5 利用電腦程式模擬看看:

DNA Walk 如果我們不用丟骰子的方式來決定往哪個方向走, 而是利用 DNA 序列來決定,結果如何? 如果我們不用丟骰子的方式來決定往哪個方向走, 而是利用 DNA 序列來決定,結果如何? 一維 DNA walk 方法:依序讀入 DNA 序列,如果 讀到 C, T (嘧啶)則向前一步,如果讀到 A, G (嘌呤)則向後退一步 一維 DNA walk 方法:依序讀入 DNA 序列,如果 讀到 C, T (嘧啶)則向前一步,如果讀到 A, G (嘌呤)則向後退一步 二維 DNA walk 方法:四種核甘酸剛好對應四個 方向 二維 DNA walk 方法:四種核甘酸剛好對應四個 方向

麵包酵母菌第三及第八條染色體之一維 DNA Walk

麵包酵母菌第二條染色體之二維 DNA Walk

關於一維 Walker 的分析 比較三種「走法」:前兩種是我們前面介紹過的 Random walk 以及 DNA walk 比較三種「走法」:前兩種是我們前面介紹過的 Random walk 以及 DNA walk 第三種是 Fibonacci walk: 利用所謂的 Fibonacci 數列方法產生一個「假的」 DNA 序列 第三種是 Fibonacci walk: 利用所謂的 Fibonacci 數列方法產生一個「假的」 DNA 序列 由 G 開始 →G 變成 GC→G 變成 GC , C 變成 G ( GCG ) →GCGGC→GCGGCGCG…… 由 G 開始 →G 變成 GC→G 變成 GC , C 變成 G ( GCG ) →GCGGC→GCGGCGCG…… 產生出來的序列再用 DNA walk 的方法去走,得 到下圖 產生出來的序列再用 DNA walk 的方法去走,得 到下圖

DNA Walk (conti.) Fluctuations: Fluctuations: Correlation: Correlation: Random sequence and short correlated sequence: Random sequence and short correlated sequence: Long-range correlated sequence: Long-range correlated sequence:

F(N) N

關於一維 Walker 的分析(續) 由 F(N)=N  的行為看來,這三種序列有很大的不 同: 由 F(N)=N  的行為看來,這三種序列有很大的不 同: Random walk:  = 0.5 Random walk:  = 0.5 Human Ch22:  ~ 0.6 Human Ch22:  ~ 0.6 Fibonacci:  << 0.5 Fibonacci:  << 0.5 Random walk 裡面不含資訊(全是隨機亂數), 因此  =0.5 表示「資訊量最低」 Random walk 裡面不含資訊(全是隨機亂數), 因此  =0.5 表示「資訊量最低」 Fibonacci 序列有嚴謹的規則,所以  偏離 0.5 很遠 Fibonacci 序列有嚴謹的規則,所以  偏離 0.5 很遠 DNA ? DNA ? “ 有點亂又不是太亂 ”

DNA Walk (conti.) (a) intron-containing  -cardiac myosin (● with a=0.67) and its cDNA (○ with a=0.49) (b) ● with a=0.62) and its intronless genes (○ with a=0.49), see table (b) intron-rich genes (● with a=0.62) and its intronless genes (○ with a=0.49), see table (c) same as in (a) for longer distance

DNA Walk (conti.)

奇怪的是 …… DNA 序列中有分 coding (gene) 以及 non- coding (junk, intron) 區域,我們很合理的猜測, 編碼區應該是「含有資訊」,而非編碼區是接 近亂數序列、不含資訊的序列 DNA 序列中有分 coding (gene) 以及 non- coding (junk, intron) 區域,我們很合理的猜測, 編碼區應該是「含有資訊」,而非編碼區是接 近亂數序列、不含資訊的序列 可是根據對編碼區與非編碼區分別計算  的結 果 …… 可是根據對編碼區與非編碼區分別計算  的結 果 …… 編碼區的  = 0.5 ,非編碼區的  ~ 0.6 !

雖然還是搞不清楚原因,不過還是提供了一 個判斷編碼區或非編碼區的方法:

DNA 「剪不斷,理還亂?」 當  ≠0.5 時,表示這個序列有「 long range correlation 」,也就是第 x 步會與第 x+N 步有關 當  ≠0.5 時,表示這個序列有「 long range correlation 」,也就是第 x 步會與第 x+N 步有關 DNA 的  ≠0.5 ,也就表示 DNA 序列存在某種規 則, but what ? DNA 的  ≠0.5 ,也就表示 DNA 序列存在某種規 則, but what ? 一個可能性: DNA 的電子傳導( S. Roche et al. ) 一個可能性: DNA 的電子傳導( S. Roche et al. ) DNA 的電子傳導性較 random sequence 好 DNA 的電子傳導性較 random sequence 好 DNA 的電傳性質是目前一個非常重要的問題 DNA 的電傳性質是目前一個非常重要的問題

Still an open question!

Visualize the Complete Genome 利用符號動力學 (symbolic dynamics) 方法,可以 將物種的完整 DNA 序列圖像化,是一種粗粒化的方 式,雖然失去一些細節,然而卻能使某些重要的特 性一目了然

Method for Visualization 將序列圖像化的方法: 將序列圖像化的方法: 1. 設定子序列長度,例如為 2 2. 將一單位正方形分割為四 等分,其所代表的鹼基如 圖所示。 3. 將每一小格再細分為四格, 亦以同樣的相對位置訂定 對應鹼基。 GC ATGCGGCGCCGAGTCACT AGACTGTC AAATTATT

Method for Visualization (conti.) 統計序列中各長度為 2 之 子序列出現的次數,例如 下列序列: AATCGGACGTAACC GTAATATAGG ,則其出 現次數如右表所示。 統計序列中各長度為 2 之 子序列出現的次數,例如 下列序列: AATCGGACGTAACC GTAATATAGG ,則其出 現次數如右表所示。 將各出現頻率依高低以不 同的顏色表示,顏色越深 者表出現次數越多。 將各出現頻率依高低以不 同的顏色表示,顏色越深 者表出現次數越多。 所得之圖稱為該物種之 Genome Portrait 。 所得之圖稱為該物種之 Genome Portrait 。 GC0GG2CG3CC1 GA1GT2CA0CT0 AG1AC2TG0TC1 AA3AT3TA4TT0

Statistical Properties 如果 DNA 序列是隨機 序列,則各個子序列 出現的機率應該差不 多,但是由所研究的 幾個序列顯示,出現 機率的分佈極不均勻, 因此 DNA 序列顯然不 是一個隨機序列。

Genome Maps of Different Species 對不同的物種可以作相同的分析,發現有 些物種的 Genome Map 很類似,有些則差 距較大。這種方法可能可以作為分類或是 演化學研究的方法。 對不同的物種可以作相同的分析,發現有 些物種的 Genome Map 很類似,有些則差 距較大。這種方法可能可以作為分類或是 演化學研究的方法。

Why so few? 既然 DNA 序列的子 序列分佈不均勻, 「經常出現」與「較 少出現」的子序列, 必然有其生物意義。 先由「較少出現」者 來看,在此圖形上似 乎顯示出某種碎形 ( fractal )的特性? 這是為了「躲避」限 制內切脢的攻擊。

DNA 中的迴文 經過分析的結果,發現這 些「躲避」的字串都呈現 迴文的型態,如: CTAG , GGACC , CCTAGG 等。 經過分析的結果,發現這 些「躲避」的字串都呈現 迴文的型態,如: CTAG , GGACC , CCTAGG 等。 當某些酵素探測到這類序 列時可以與之結合,並由 此處將 DNA 長鏈切斷, 造成該生物死亡 當某些酵素探測到這類序 列時可以與之結合,並由 此處將 DNA 長鏈切斷, 造成該生物死亡 因此這些「 DNA 肖像」反 映出這個物種的演化痕跡 因此這些「 DNA 肖像」反 映出這個物種的演化痕跡

結語 物理學家處理 DNA 特性的方式,與生物學家大 為不同 物理學家處理 DNA 特性的方式,與生物學家大 為不同 生物學家希望能將每個生物的 DNA 序列的每個 基因找出來,並且探討這些基因在生物體內的功 能 生物學家希望能將每個生物的 DNA 序列的每個 基因找出來,並且探討這些基因在生物體內的功 能 物理學家喜歡找「共同規則」,所以經常將各種 不同物種的序列拿來一起分析,希望找出共同點 物理學家喜歡找「共同規則」,所以經常將各種 不同物種的序列拿來一起分析,希望找出共同點 但是由於目前資料量過於龐大,因此物理學家先 用所熟悉統計工具來「玩」 DNA 但是由於目前資料量過於龐大,因此物理學家先 用所熟悉統計工具來「玩」 DNA 只要有好點子,都可以來玩玩看! 只要有好點子,都可以來玩玩看!