Presentation is loading. Please wait.

Presentation is loading. Please wait.

2019 年度 第 2 回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室 中林潤.

Similar presentations


Presentation on theme: "2019 年度 第 2 回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室 中林潤."— Presentation transcript:

1 2019 年度 第 2 回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室 中林潤

2 細胞 A 細胞 B exon intron リード数をカウント → 発現量 細胞から mRNA を抽出 →DNA ライブラリ → 次世代シーケンサ RNA-seq タグ数と発現量

3 Tophat によるマッピング Johns Hopkins University Center for Computational Biology http://ccb.jhu.edu/software/tophat/index.shtml Transcriptome 解析用マッピングツール Bowtie2 を呼び出してマッピング スプライスジャンクションを予測する

4 htseq-count コマンド htseq-count マッピング後の sam ファイル名 アノテーション用 gtf ファイル名 > 出力ファイル名 Cygwin X $htseq-count SRR3939298.sam GRCh38.gtf > SRR3939298_count.txt Htseq によるカウント計測

5 GEO データベース検索 http://ncbi.nlm.nih.gov GEO Datasets を選択 GSE123860 を入力して検索 5 GEO database 検索

6 GSE123860_BT549_counts.txt.gz GSE123860 のデータを取得 課題配布フォルダから GSE123860_BT549_counts.txt を各自のデスクトップにコピー

7 X > Sys.setenv(http_proxy=“http://proxy.med.yokohama-cu.ac.jp:8080”) > source(“http://bioconductor.org/biocLite.R”) > biocLite(“edgeR”) > library(edgeR) R console edgeR パッケージのインストールとロード

8 X > x <- read.table(“GSE123860_BT549_count.txt”, header = T, sep = “\t”) > rownames(x) <- x$Gene_ID > x <- x[,-1] R console データの読み込みと整形 ファイルメニューから“ディレクトリの変更”を選択して、デスクトップに移動

9 X > d <- DGEList(counts = x, group = c(rep(“V”, 3), rep(“S”, 3))) > d <- calcNormFactors(d) > d <- estimateCommonDisp(d) > d <- estimateTagwiseDisp(d) > result <- exactTest(d) R console edgeR package の実行

10 X > result.table <- topTags(result, nrow(x))@.Data[[1]] > result.sig <- subset(result.table, result.table$FDR < 0.05) > result.sig.up 0) > result.sig.down <- subset(result.sig, result.sig$logFC < 0) > write.table(result.sig, “result.sig.txt”, quote=F, sep=“\t”) > plotSmear(result) R console 結果の出力

11 GO term 遺伝子の機能や構造を記述するための、生物種に非依存的な統一された用語。 GO 解析 遺伝子リストの中に特定の GO タームを持つ遺伝子が高頻度に存在しているか 判定して、その機能を推定する。 GO 解析

12 性質 1 性質 2 A群A群 ab B群B群 cd 2×2 クロス集計表 e f g hn … … 赤玉 20 白玉 80 10 個 赤 : 4 白 : 6 取った残り 赤 416 白 674 20 80 100 10 90 p=0.0841073 計 100 個 ある集団のある変数に出現頻度の偏りがあるか判定する方法 Fisher’s の正確確率検定

13 発現変動遺伝子 GO ターム A を持つ遺伝子 80 20 1480 全遺伝子 20000 発現変動遺伝子残り GO ターム A を持つ遺伝子 201480 その他の遺伝子 8018420 全遺伝子 : 20000 GO ターム A を持つ遺伝子 : 1500 発現変動遺伝子 : 100 1500 2000018500100 19900 p-value = 0.00004509 クロス集計表

14 発現変動遺 伝子 その他 GO ターム B を 持つ遺伝子 595 その他 9519805 100 20000 19900 100 19900 p-value = 0.0001461 発現変動遺 伝子 その他 GO ターム A を 持つ遺伝子 101490 その他 9018410 1500 20000 18500 10019900 p-value = 0.3379 全遺伝子 : 20000 GO ターム B を持つ遺伝子 : 100 発現変動遺伝子 : 100 全遺伝子 : 20000 GO ターム A を持つ遺伝子 : 1500 発現変動遺伝子 : 100 クロス集計表

15 http://www.cytoscape.org グラフ作成用アプリケーション Cytoscape

16 cytoscape のホームページからインストーラーをダウンロード インストールして実行 プロクシの設定 APP をインストール Cytoscape に APP をインストール

17 編集メニューから preferences の Properties を選択 Proxy の設定

18 cytoscape preference editor ウインドウの proxy server に “proxy.med.yokohama-cu.ac.jp” proxy server port に “8080” proxy server type に ”http” を入力して Modify をクリック Proxy の設定

19 APPs の App Manager を選択 APP のインストール

20 App Manager ウインドウの BiNGO を選択 install をクリック APP のインストール

21 App メニューの中に BiNGO が表示されるので、選択して実行 APP のインストール

22 X > result.sig.up <- result.sig.up[order(result.sig.up$logFC, decreasing = T),] > write(as.character(rownames(result.sig.up))[1:200], “clipboard”) > result.sig.down <- result.sig.down[order(result.sig.down$logFC),] > write(as.character(rownames(result.sig.down))[1:200], “clipboard”) R console

23 BiNGO settings ウィンドウの Cluster Name に適当な名前を入力 Paste Gene from Text にチェック 入力欄に遺伝子名を入力 生物種を選択 Start BiNGO をクリック BiNGO の実行

24 特定の遺伝子セットと発現比の間に相関があるか調べる 24 Gene Set Enrichment Analysis (GSEA) KO/WT gene set {Otx2,Msx1,Rbp1,…} 発現比ランキングの 上位に偏って存在する 遺伝子セットと発現に相関あり 発現比ランキングの下位に偏って存在する 遺伝子セットと発現に逆相関あり 発現比ランキングによる偏り無し 遺伝子セットと発現に相関なし

25 25 http://www.broadinstitute.org/gsea/index.jsp Broad Institute

26 Download セクションから GSEA を取得 Java プログラムなので OS に 依存しない メールアドレスを登録する 必要あり 26 GSEA のダウンロード

27 課題配布フォルダから gsea-3.0.jar を各自のデスクトップにコピー gsea-3.0.jar をダブルクリック 27 Gene Set Enrichment Analysis (GSEA)

28 28 GSEA

29 必要なファイルは3つ 発現プロファイル gct ファイル 遺伝子セット grp ファイル カテゴリー cls ファイル 29 データのロード

30 #1.2 215306 NAMEDescriptionV1V2V3S1S2S3 CtssNA1730.11681.11653.210.510.913.2 AhnakNA1650.31510.11701.314.215.111.3 ……………… 遺伝子数 サンプル数 遺伝子名 大文字、小文字の区別に注意 常に必要 ファイル名の拡張子は gct 30 gct のファイル:発現プロファイル

31 データファイルを load 31 GSEA

32 #gene symbol Evi1 Myct1 … grp ファイル 遺伝子名の羅列 gct ファイルと大文字、小文字を一致させる ファイル名の拡張子は grp cls ファイル 6 2 1 #V S V V V S S S サンプル数 クラス数 常に必要 cls ファイルはスペース区切りのテキストファイル 拡張子は cls 32 grp ファイル: gene set cls ファイル:カテゴリーの記述

33 課題配布フォルダから GSE123860_BT549_GSEA.gct GSE123860_BT549.cls 各ファイルを各自のデスクトップフォルダへコピー 33

34 Browse for files をクリックしてファイルを選択 34 データのロード

35 Run GSEA をクリックして実行 35 実行

36 gct ファイルを選択 発現比の方向 S/V false gene_set run をクリックして実行 ステータスが表示 Success と表示されたらクリックして 結果を確認 36 実行 MsigDB に登録されている gene set を選択

37 enrichment result in html をクリック 37 結果の表示

38 details をクリック 38 結果の表示

39 統計量 enrichment score 39 結果の表示

40 GSE123860_A549_count.txt.gz で、今回の解析を実行してください。 宿題

41 バイオインフォマティクスフォーラム https://163.212.171.228/bioinformaticsforum バイオインフォマティクス実習に関する質問、バイオインフォマティクス全般に関する質問など投稿し てください。 実習の資料について 「先端研 バイオインフォマティクス解析室」ホームページに slide share の URL を掲載しています。 https://www.yokohama-cu.ac.jp/amedrc/section/support/bioinfomatics2.html 2018 年度以前のパスワード: bijishu 2019 年度のパスワード:実習後にお知らせします。 アンケートにご協力ください。 「先端研 バイオインフォマティクス解析室」ホームページまたは QR コードにアクセスし回答ください。 https://www.yokohama-cu.ac.jp/amedrc/section/support/bioinfomatics2.html お知らせ


Download ppt "2019 年度 第 2 回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室 中林潤."

Similar presentations


Ads by Google