指導教授 : 歐昱言學生 : 張晃銘王仁亨賈惟勛膜運輸蛋白的鑑別與預測.  前言  介紹與流程  膜蛋白  運輸蛋白  結晶法  軟體介紹  相關屬性  步驟總結  數據平均值  總結目錄 2.

指導教授 : 歐昱言學生 : 張晃銘王仁亨賈惟勛膜運輸蛋白的鑑別與預測

 前言  介紹與流程  膜蛋白  運輸蛋白  結晶法  軟體介紹  相關屬性  步驟總結  數據平均值  總結目錄 2

 在我們替蛋白質定序時，經常發現新的蛋白質序列，這些序列既多且複雜，傳統方法上我們使用化學實驗去驗證它們的特性。  可是蛋白質序列變化千百種，有沒有更快的方式呢 ? 3 為什麼我們做這個 ?

 膜蛋白上的運輸蛋白在細胞傳輸物質中占有重要的地位，生物實驗中，經常會用到結晶法，但現行技術成功率低 (1%) ，若能先取得相關蛋白質，並且輔以程式預測，透過這種方式，可以降低實驗成本，大幅提高效率。前言 4

 連接相關胞器或細胞的蛋白質分子者稱之為膜蛋白。其主要功能是協助交換內外分子或保護細胞、建立細胞間溝通的管道。具有特殊的功能。 MEMBRANE PROTEIN 5

 凡膜蛋白協助離子 / 小分子 / 分子等移動者稱之。 MEMBRANE TRANSPORT PROTEIN 6

 利用已知蛋白質之屬性，將未知蛋白質做分類。  利用機器自動判斷，可提前驗證實驗方向及正確性。  問題 : 正確率呢 ?  我們利用幾個分類器和不同屬性，來看看它們的正確率。 7 目的

 類別  屬性  類別 :  老虎  大象  屬性 :  型態大小  組織差異 ( 鼻子、象牙 ) 8 分類也是大學問

 我們必須要知道，面對不同資料時，是不是仍然有判斷出正確所需資料的能力。  於是我們必須從已知的資料中先學習判斷特徵 ( 定義屬性 ) 。  如果已知的資料都是具有同一特殊特徵，會不會影響判斷 ?  所以我們將資料分成數堆，先蓋住其中一堆，判斷其他堆的屬性，再來判斷蓋住的資料，重複步驟直到所有分類都被蓋過且判斷為止。 9 5-FOLD

10 Data fold1 fold3 fold4 fold5 fold2 classifier Test data Training data Test data

11 架構圖從 Uniprot 下載所需資料非運輸蛋白 (4606 條 ) 運輸蛋白 (2367 條 ) 非運輸蛋白運輸蛋白 Blastclust 砍相似度 (40%) Blastpgp 產生 PSSM 檔製作 5-fold 所需資料 Test_1train1 Train2 train3 train4train5 Test_1train1 Train2 train3 train4train5 非運輸蛋白運輸蛋白 AAC 、 DPC 、 PSSM Test_1 Train1 Train2 Train3 Train4 Train5 WEKA 、 LIBSVM 、 QUICKRBF Independent test 結果數據資料 Get_sequence.cpp Select_train_test.cpp 5-fold 產生屬性

 資料取得  資料分析與處理  分類器  結果 12 步驟

 將網站下載的膜蛋白之蛋白質序列分類成 ” 運輸蛋白 ” 與 ” 不是運輸蛋白 ” 兩類，再將兩類資料經由程式分別平均放入名為 test_1(independent test 用 (1161 條 )) 、 train1~5(5-fold 用 ( 各 1163 條 )) 的資料夾中。 (MEMBRANE:6973 條 TRANSPORT:2367 條 NON- TRANSPORT:4606 條 )  產生 AAC 、 DPC 、 PSSM 屬性。  利用這些屬性作為分類器分類的依據。  分析和比較結果的正確率。 13 步驟概述

 AAC(Amino acid composition) 每個蛋白質可用 20 種胺基酸組合而成，這 20 種可作為第一種屬性，可以統計它們在特別蛋白質中分別出現的次數。  DPC(Dipepdite composition) 20 種胺基酸又可兩兩組合成 400 種不同的因子，此 400 種作為第二種屬性，可以統計它們在特別蛋白質中分別出現的次數。  PSSM(Position specific scoring matrix) 利用 BLAST 程式產生相關屬性 14

 兩個不同的蛋白質，且蛋白質序列差異極小，具有類似功能，可以歸類為同一類型蛋白質，此例子會影響到我們的數據判斷 ( 因為要分析不同類型的蛋白質 ) ，這種狀況稱為相似度。而利用的 BLASTCLUST 內建相關數據庫，可幫我們移除相似度的問題。然後我們再用 BLASTPGP 來產生 PSSM 檔案進入下一個分析的步驟。 15 BLAST

 PSSM(Position-Specific Scoring Matrix) 利用 PSSM.cpp 來產生 400 個屬性，產生方法為將 protein.pssm 內的 pssm 值算出每一個 acid 可以被其他 acid( 包含自己 ) 所取代的數值  從 PSSM 上的資料，找出每種 acid 可以被其他 acid 所取代的比例 16 PSSM

17 PSSM

 Weka  QuickRBF  LIBSVM 軟體介紹 18

 Waikato Environment for Knowledge Analysis  可用於機器學習、數據分析的 data mining 軟體 19 WEKA

 我們使用以下三種演算法 :  RandomForests:  對於很多種資料，它可以產生高準確度的分類器。它可以處理大量的輸入變數。它可以在決定類別時，評估變數的重要性。  IBK:  採用向量空間模型來分類，概念為相同類別的案例，彼此的相似度高，而可以藉由計算與已知類別案例之相似度，來評估未知類別案例可能的分類。  J48:  機器學習中，決策樹是一個預測模型  能夠同時處理數據型和常規型屬性，不必先統一資料來源 ( 一般化 ) 。  在相對短的時間內能夠對大型數據源做出可行且效果良好的結果。 20 WEKA 演算法

 LIBSVM 是 SVM 的一種，而 SVM 是兩種不同類別進行分類的分類器。  原始 data: 21 LIBSVM

SVM 22 可以發現原先三種顏色的點被分區了，這邊所有的點就是我們的 training data ，而 model 記錄的就是點的分區狀況。

23 架構

 AAC  DPC  PSSM 24 分析結果 - 同一屬性不同分類器之比較

 WEKA  QuickRBF  LIBSVM 25 分析結果 - 同一分類器不同屬性之比較

這次實驗的結果， PSSM 搭配 QuickRBF 的預測正確率較為精準，比其他方法高出 2-3% 。雖然結果只有小幅提升，但是在降低相關實驗成本和提升效率兩大要求上已是相當重要，如果能進一步發展，機器學習將可在生物實驗中佔有舉足輕重的地位。總結 26

WEKA  http://www.cs.waikato.ac.nz/ml/weka/ http://www.cs.waikato.ac.nz/ml/weka/ LIBSVM  http://www.csie.ntu.edu.tw/~cjlin/libsvm/ http://www.csie.ntu.edu.tw/~cjlin/libsvm/  www.cmlab.csie.ntu.edu.tw/~cyy/learning/tutorials/libsvm.pdf www.cmlab.csie.ntu.edu.tw/~cyy/learning/tutorials/libsvm.pdf QuickRBF  http://csie.org/~yien/quickrbf/quickstart.php http://csie.org/~yien/quickrbf/quickstart.php  http://zh.wikipedia.org/wiki/Wiki http://zh.wikipedia.org/wiki/Wiki REFERENCE 27

 Q & A 28

 Thank you! 29

指導教授 : 歐昱言學生 : 張晃銘王仁亨賈惟勛膜運輸蛋白的鑑別與預測.  前言  介紹與流程  膜蛋白  運輸蛋白  結晶法  軟體介紹  相關屬性  步驟總結  數據平均值  總結目錄 2.

Similar presentations

Similar presentations

About project

Feedback

Log in

Auth with social network:

指導教授 : 歐昱言 學生 : 張晃銘 王仁亨 賈惟勛 膜運輸蛋白的鑑別與預測.  前言  介紹與流程  膜蛋白  運輸蛋白  結晶法  軟體介紹  相關屬性  步驟總結  數據平均值  總結 目錄 2.

Similar presentations

Similar presentations

About project

Feedback

指導教授 : 歐昱言學生 : 張晃銘王仁亨賈惟勛膜運輸蛋白的鑑別與預測.  前言  介紹與流程  膜蛋白  運輸蛋白  結晶法  軟體介紹  相關屬性  步驟總結  數據平均值  總結目錄 2.