指導老師:李宗夷 專題製作: 陳少川 林世偉 Acetyllysine 與 Methyllysine 之分類
Outline Background Motivation Goal Materials and Methods Expected results
專題研究背景 N-acetylation orchestrates a variety of cellular processes, including transcription regulation, DNA repair, apoptosis, cytokine signaling, and nuclear import. N- 甲基離胺酸 (N-methyllysine) 被發現於肌 凝蛋白 (myosin) 中,為一種與肌肉收縮有關 之蛋白質。
研究動機 Acetyllysine & Methyllysine 皆為蛋白質後轉譯修飾裡 其中兩個重要的機制,若能預測出發生此兩機制的基 因片段,對生物界以及醫學界都有很大的幫助。
研究目的 在未處理的蛋白質序列中,預測出發生 Acetyllysine 或 Methyllysine 的基因片段。
實驗材料 來源 Database : UniProt 蛋白質序列: 會發生 Acetyllysine 有 2003 條 會發生 Methyllysine 有 158 條
實驗方法 先將會發生 Acetyllysine 和 Methyllysine 反應的蛋白質 胺基酸序列一比例取出當作 independent( 測試樣本 ) , 剩下的用來做 trainning model 。 將給定發生分別會發生的 Acetyllysine 和 Methyllysine 的 positive 的基因片段,用來對蛋白質序列刪選出 positive 和 negative 基因片段。 皆以 K 胺基酸為中心分別分段來分析,切成一定長度 19/25 的 windows sizes 。 把重複的片段刪除。
實驗方法 將基因片段作編碼 (feature) Trainning model 使用 5-foldcross validation 後,再使 用分類工具分類。 將 independent 加入 Trainning model 裡,使用 5- foldcross validation ,再用分類工具分類。 評測結果
System Flow
評測方法 Negative Positive TN TPFNFP Predic t
實作流程
STEP1 Acetyllysine_protein 和 Methyllysine_protein 中有重 複的蛋白質序列, 將重複的序列捨去 Acetyllysine_protein 部分並留下 Methyllysine_protein 的部分。 #Acetyllysine_protein 和 Methyllysin_proteine 重複的有 46 條 。
STEP2 將 STEP1 處理後的 Acetyllysine_protein 和 Methyllysine_protein 分別依比例以 1:5 取出,分成兩 部份 independent 和 training 。 # 為了 independent 和 training model 都能取到
比例 1:5
STEP3 把給定的 Acetyllysine_pos 和 Methyllysine_pos 中有完 全相同的取出另存 # 會同時發生 Acetyllysine 和 Methyllysine 的 K ,在作分類的時候不易處理。
STEP4 利用 step3 處理過的 Acetyllysine_pos 和 Methyllysine_pos ,將 independent 和 trainning model 的這兩類的蛋白質序列切 windows size 。並分 成 positive 和 negative
取出 Positive & Negitive 將給定會發生 Acetyllysine/ Methyllysine 反應的 K 位置, 將會發生反應的蛋白質序列片段篩選出 Positive & Negative ,並把 Negative 部分取出另存。
Windows sizes 將處理後的基因片段,皆以 K 胺基酸為中心分別分段 來分析,切成每段 windows sizes 長度為 25 的胺基酸片 段。 格式 : ID_ 位置 _ 基因片段 (fragment) 基因片段 : 以 K 胺基酸為中心,左右各 12 個胺基酸
STEP5 切好後 WINDOWS SIZE 的 independent_Acetyllysine_SEQ 和 independent_Methyllysine_SEQ 刪除重複片段。 Trainning Model 亦將兩類作同樣處理。
STEP6 上步處理重複後的 independent_Acetyllysine_SEQ 和 independent_Methyllysine_SEQ 轉編碼合併成 independent 部分。 上步處理重複後的 train_Acetyllysine_SEQ 和 train_Methyllysine_SEQ 轉編碼合併成 trainning Model 部分。
編碼 1- 0 / 1 將 20 種胺基酸以 0 和 1 為組成,組成 20 個不同的編碼。 格式 : 屬性 (pos/neg)_ 編碼 1_1: 0 _2:1_~~499:1_500:0 #windos sizes 長度為 25 所以有 25*20=500 個編碼數 屬性 :pos/neg pos 為 1 neg 為 2
編碼 2-BLOSUM62 格式 : 屬性 _ 編碼 屬性 :pos/neg (pos 為 1 neg 為 2) 編碼 : 給定的編碼對照表 長度 25*20
編碼 - 範例 範例 CST 1:9_2:-1_3:-1_4:-3_......_19:-2_20:-2_21:- 1_22:4_ _39:-2_40:-3_41:-1_42:1_......_59:- 2_60:-3
CSTPAGNDEQHRKMILVFYW C S T P A G N D E Q H R K M I L V F Y W
STEP7 trainning Model 和 independent 用 5-fold Cross Validation 做 quickrbf 分類處理。
評測預測結果 將 QuickRBF 分類器分類出來的預測結果和 positive 發 生反應的胺基酸片段作資料作比對,將比對的結果作 統計機率的分析,算出評測的效果表現。
實驗結果