Download presentation
Presentation is loading. Please wait.
1
指導教授 : 歐昱言 學生 : 張晃銘 王仁亨 賈惟勛 膜運輸蛋白的鑑別與預測
2
前言 介紹與流程 膜蛋白 運輸蛋白 結晶法 軟體介紹 相關屬性 步驟總結 數據平均值 總結 目錄 2
3
在我們替蛋白質定序時,經常發現新的蛋白質序列,這 些序列既多且複雜,傳統方法上我們使用化學實驗去驗 證它們的特性。 可是蛋白質序列變化千百種,有沒有更快的方式呢 ? 3 為什麼我們做這個 ?
4
膜蛋白上的運輸蛋白在細胞傳輸物質中占有重 要的地位,生物實驗中,經常會用到結晶法,但 現行技術成功率低 (1%) ,若能先取得相關蛋白質, 並且輔以程式預測,透過這種方式,可以降低實 驗成本,大幅提高效率。 前言 4
5
連接相關胞器或細胞的蛋白質分子者稱之為膜蛋 白。其主要功能是協助交換內外分子或保護細胞、 建立細胞間溝通的管道。具有特殊的功能。 MEMBRANE PROTEIN 5
6
凡膜蛋白協助離子 / 小分子 / 分子等移動者稱 之。 MEMBRANE TRANSPORT PROTEIN 6
7
利用已知蛋白質之屬性,將未知蛋白質做分類。 利用機器自動判斷,可提前驗證實驗方向及正確 性。 問題 : 正確率呢 ? 我們利用幾個分類器和不同屬性,來看看它們的正確率。 7 目的
8
類別 屬性 類別 : 老虎 大象 屬性 : 型態大小 組織差異 ( 鼻子、象牙 ) 8 分類也是大學問
9
我們必須要知道,面對不同資料時,是不是仍然有判斷出正確所需 資料的能力。 於是我們必須從已知的資料中先學習判斷特徵 ( 定義屬性 ) 。 如果已知的資料都是具有同一特殊特徵,會不會影響判斷 ? 所以我們將資料分成數堆,先蓋住其中一堆,判斷其他堆的屬性, 再來判斷蓋住的資料,重複步驟直到所有分類都被蓋過且判斷為止。 9 5-FOLD
10
10 Data fold1 fold3 fold4 fold5 fold2 classifier Test data Training data Test data
11
11 架構圖 從 Uniprot 下載所需資料 非運輸蛋白 (4606 條 ) 運輸蛋白 (2367 條 ) 非運輸蛋白 運輸蛋白 Blastclust 砍相似度 (40%) Blastpgp 產生 PSSM 檔 製作 5-fold 所需資料 Test_1train1 Train2 train3 train4train5 Test_1train1 Train2 train3 train4train5 非運輸蛋白運輸蛋白 AAC 、 DPC 、 PSSM Test_1 Train1 Train2 Train3 Train4 Train5 WEKA 、 LIBSVM 、 QUICKRBF Independent test 結果數據資料 Get_sequence.cpp Select_train_test.cpp 5-fold 產生屬性
12
資料取得 資料分析與處理 分類器 結果 12 步驟
13
將網站下載的膜蛋白之蛋白質序列分類成 ” 運輸蛋白 ” 與 ” 不是運輸蛋白 ” 兩類,再將兩類資料經由程式分別平均放 入名為 test_1(independent test 用 (1161 條 )) 、 train1~5(5-fold 用 ( 各 1163 條 )) 的資料夾中。 (MEMBRANE:6973 條 TRANSPORT:2367 條 NON- TRANSPORT:4606 條 ) 產生 AAC 、 DPC 、 PSSM 屬性。 利用這些屬性作為分類器分類的依據。 分析和比較結果的正確率。 13 步驟概述
14
AAC(Amino acid composition) 每個蛋白質可用 20 種胺基酸組合而成,這 20 種可作為第一種屬性,可以統 計它們在特別蛋白質中分別出現的次數。 DPC(Dipepdite composition) 20 種胺基酸又可兩兩組合成 400 種不同的因子,此 400 種作為第二種屬性, 可以統計它們在特別蛋白質中分別出現的次數。 PSSM(Position specific scoring matrix) 利用 BLAST 程式產生 相關屬性 14
15
兩個不同的蛋白質,且蛋白質序列差異極小,具有類似功能, 可以歸類為同一類型蛋白質,此例子會影響到我們的數據判斷 ( 因 為要分析不同類型的蛋白質 ) ,這種狀況稱為相似度。而利用的 BLASTCLUST 內建相關數據庫,可幫我們移除相似度的問題。 然後我們再用 BLASTPGP 來產生 PSSM 檔案進入下一個分析的步驟。 15 BLAST
16
PSSM(Position-Specific Scoring Matrix) 利用 PSSM.cpp 來產生 400 個屬性,產生方法為將 protein.pssm 內 的 pssm 值算出每一個 acid 可以被其他 acid( 包含自己 ) 所取代的數值 從 PSSM 上的資料,找出每種 acid 可以被其他 acid 所取代的比例 16 PSSM
17
17 PSSM
18
Weka QuickRBF LIBSVM 軟體介紹 18
19
Waikato Environment for Knowledge Analysis 可用於機器學習、數據分析的 data mining 軟體 19 WEKA
20
我們使用以下三種演算法 : RandomForests: 對於很多種資料,它可以產生高準確度的分類器。 它可以處理大量的輸入變 數。 它可以在決定類別時,評估變數的重要性。 IBK: 採用向量空間模型來分類,概念為相同類別的案例,彼此的相似度高,而可以 藉由計算與已知類別案例之相似度,來評估未知類別案例可能的分類。 J48: 機器學習中,決策樹是一個預測模型 能夠同時處理數據型和常規型屬性,不必先統一資料來源 ( 一般化 ) 。 在相對短的時間內能夠對大型數據源做出可行且效果良好的結果。 20 WEKA 演算法
21
LIBSVM 是 SVM 的一種,而 SVM 是兩種不同類別進行分類的分類器。 原始 data: 21 LIBSVM
22
SVM 22 可以發現原先三種顏色的點被分區了,這邊 所有的點就是我們的 training data ,而 model 記錄的就是點的分區狀況。
23
23 架構
24
AAC DPC PSSM 24 分析結果 - 同一屬性不同分類器之比較
25
WEKA QuickRBF LIBSVM 25 分析結果 - 同一分類器不同屬性之比較
26
這次實驗的結果, PSSM 搭配 QuickRBF 的預測正確率較為精準, 比其他方法高出 2-3% 。 雖然結果只有小幅提升,但是在降低相關實驗成本和提升效率兩 大要求上已是相當重要,如果能進一步發展,機器學習將可在生物實 驗中佔有舉足輕重的地位。 總結 26
27
WEKA http://www.cs.waikato.ac.nz/ml/weka/ http://www.cs.waikato.ac.nz/ml/weka/ LIBSVM http://www.csie.ntu.edu.tw/~cjlin/libsvm/ http://www.csie.ntu.edu.tw/~cjlin/libsvm/ www.cmlab.csie.ntu.edu.tw/~cyy/learning/tutorials/libsvm.pdf www.cmlab.csie.ntu.edu.tw/~cyy/learning/tutorials/libsvm.pdf QuickRBF http://csie.org/~yien/quickrbf/quickstart.php http://csie.org/~yien/quickrbf/quickstart.php http://zh.wikipedia.org/wiki/Wiki http://zh.wikipedia.org/wiki/Wiki REFERENCE 27
28
Q & A 28
29
Thank you! 29
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.