Presentation is loading. Please wait.

Presentation is loading. Please wait.

專題成果報告 胺基酸功能預測開發環境 指導教授:歐昱言 971508 邱彥豪 971520 邱顯鈞.

Similar presentations


Presentation on theme: "專題成果報告 胺基酸功能預測開發環境 指導教授:歐昱言 971508 邱彥豪 971520 邱顯鈞."— Presentation transcript:

1 專題成果報告 胺基酸功能預測開發環境 指導教授:歐昱言 邱彥豪 邱顯鈞

2 前言 隨著生物資訊的發展,蛋白質序列的資料庫變得非常龐 大,大部分的蛋白質我們仍然未知它們的功能,所以取得 蛋白質序列且了解它們的功能是生物學家努力想要達到的 目標,生物學家必須透過實驗(如結晶法)來確定蛋白質的 功能。 透過實驗,我們發現眾多經過實驗確定的蛋白質序列, 當胺基酸排列相似的時候,它們的功能也類似,某些時候 甚至可以做為判斷的依據,但現行實驗技術成功率低且成 本昂貴,於是透過電腦分類龐大資料的想法便應運而生。 1.要加上轉折語,接下一張投影片前也要 2.不要照念 3.重點再說清楚(蛋白質上胺基酸區段功能)

3 目的 我們希望透過我們所開發的環境能使生物學 家利用電腦快速分類龐大的原始蛋白質序列資 料,再使用分類器預先預測出某一胺基酸區段
在未知蛋白質內所代表的功用並加以分類。

4 PSSM(Position-specific scoring matrix)
架構 資料取得 1.序列相似度篩選 2.標記胺基酸功能區段 資料處理 PSSM(Position-specific scoring matrix) 序列剖析 1.UniProt是一個包含大量有關生物學功能的蛋白質信息的數據庫。 /*要改*/ 2.對原始資料做必要的處理 3.以PSSM為屬性制造出所需檔案libsvm 4.將處理後的資料檔案丟入分類器做分析 分類器分析結果

5 開發功能 我們的程式能 1.自動處理下載來的資料 2.快速的做序列相似度篩選 3.標記胺基酸功能區段 4.產生PSSM檔案
5.快速產生能進分類器的檔案格式

6 一.資料取得

7 二.資料處理 在原始的資料中,紀錄蛋白質序列的所 有資訊,我們為了預測胺基酸區段在未 知蛋白質內所代表的功用,必須擷取胺 基酸區段的位置,再將此位置標記在蛋 白質序列上。

8 三.序列剖析 PSSM(位置加權矩陣): 具有相似化學特性的胺基酸之間會互相 取代,每行列代表各胺基酸取代的可能, 會以一加權值表示,值越大則表示此胺 基酸能被取代的可能性越大。

9 四.產生結果 Select_pssm: 最終,以PSSM當作屬性產生出來的 libsvm檔即可用分類器做分類了。

10 範例: 1.下載 UNIPROT上QUERY敘述要講 我們實作找的是有透過實驗的,位置在膜上的運輸蛋白

11 2.將所需資訊擷取

12 3.相似度篩選 序列相似度:將相似度高於50%的蛋白質序列分為一群,在從中取一蛋白質

13 4.標記胺基酸功能區段

14 5. 用PSSM產生出libsvm格式 /*直接說明屬性189個*/
以第五胺基酸L為例,L加上前四以及後四胺基酸即為window size=9的一組,產生出的PSSM檔每個胺基酸 皆有20個值,我們利用此20個值+1個valid Bit 可以得到我們最後之libsvm檔,每個胺基酸皆有189種 屬性((20+1)*window size 9)。 胺基酸功能區段之類別為positive(1) ,反之則為negative(0) 。

15 6.分類器:Weka 1.IBK-3NN 我們將LIBSVM餵入第一個分類器WEKA,並選IBK,此為結果

16 2.J48 演算法為J48

17 分類器:QuickRBF Center5000 第二個分類器為QUICKRBF,設CENTER為5000

18 報告結束 謝謝大家!


Download ppt "專題成果報告 胺基酸功能預測開發環境 指導教授:歐昱言 971508 邱彥豪 971520 邱顯鈞."

Similar presentations


Ads by Google