Download presentation
Presentation is loading. Please wait.
Published byHollie Charles Modified over 9 years ago
1
Bioinformatics trainings, Vietnam Hanoi, November, 2015
Explore SNP polymorphism data A. Dereeper, G. Sarah, F. Sabot Bioinformatics trainings, Vietnam Hanoi, November, 2015
2
Tablet Graphical tools to visualize assemblies Accept many formats
ACE, SAM, BAM A. Dereeper, G. Sarah, F. Sabot A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015 Bioinformatics trainings, Vietnam Hanoi, November, 2015
3
GATK (Genome Analysis ToolKit)
Software package to analyse NGS data. Implemented to analyse human resequencing data, for medical purpose (1000 genomes, The Cancer Genome Atlas) Included: depth analyses, quality score recalibration, SNP/InDel detection Complementary with other packages: SamTools, PicardTools, VCFtools, BEDtools PREPROCESS: * Index human genome (Picard), we used HG18 from UCSC. * Convert Illumina reads to Fastq format * Convert Illumina 1.6 read quality scores to standard Sanger scores FOR EACH SAMPLE: 1. Align samples to genome (BWA), generates SAI files. 2. Convert SAI to SAM (BWA) 3. Convert SAM to BAM binary format (SAM Tools) 4. Sort BAM (SAM Tools) 5. Index BAM (SAM Tools) 6. Identify target regions for realignment (Genome Analysis Toolkit) 7. Realign BAM to get better Indel calling (Genome Analysis Toolkit) 8. Reindex the realigned BAM (SAM Tools) 9. Call Indels (Genome Analysis Toolkit) 10. Call SNPs (Genome Analysis Toolkit) 11. View aligned reads in BAM/BAI (Integrated Genome Viewer) A. Dereeper, G. Sarah, F. Sabot A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015 Bioinformatics trainings, Vietnam Hanoi, November, 2015
4
Global BAM with read group
Fastq (RC1) Fastq (RC2) Fastq (RC3) Fastq (RC4) Cutadapt Cutadapt Cutadapt Cutadapt …. Mapping BWA Mapping BWA Mapping BWA Mapping BWA Add or Replace Groups Add or Replace Groups Add or Replace Groups Add or Replace Groups BAM with read group BAM with read group BAM with read group BAM with read group mergeSam Global BAM with read group VCF file 4 4
5
For GBS data Tassel pipeline Version 5 TASSEL-GBS Plos One, 2014
A. Dereeper, G. Sarah, F. Sabot A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015 Bioinformatics trainings, Vietnam Hanoi, November, 2015
6
GBS RAD-Seq RNA-Seq WGRS Reads pre-processing and mapping Galaxy +
workflow SNP Calling and genotype assignation Tassel Genotyping data Storage and mining Genotyping data analyses and visualization (GWAS, diversity…)
7
Format VCF (Variant Call Format) Advantages:
Variation description for each position + genotype assignations Indexed flat files. Binary files also exist: BCF format A. Dereeper, G. Sarah, F. Sabot A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015 Bioinformatics trainings, Vietnam Hanoi, November, 2015
8
Autres fonctionalités GATK Other GATK functionalities
Module DepthOfCoverage: Allows to get sequencing depth for each gene, each position and each individual Module ReadBackedPhasing: Allows to set, if possible, associations between alleles (phase and haplotypes) when we are in an heterozygote situation. Et non AGG GGA A. Dereeper, G. Sarah, F. Sabot A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015 Bioinformatics trainings, Vietnam Hanoi, November, 2015
9
Another format for variant calling (generated by samtools)
Format Pileup Another format for variant calling (generated by samtools) Describe alignment row by row (not line by line like in SAM format) Used by VarScan like softwares (varscan pileup2snp) Frequently used for rare variants, with a low frequency (e.g. viral pop) A. Dereeper, G. Sarah, F. Sabot A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015 Bioinformatics trainings, Vietnam Hanoi, November, 2015
10
- Based on NoSQL technology
Projet Gigwa, pour la gestion des données massives de variants (GBS, RADSeq, WGRS) « With NGS arise serious computational challenges in terms of storage, search, sharing, analysis, and data visualization, that redefine some practices in data management. » - Based on NoSQL technology - Handles VCF files (Variant Call Format) and annotations - Supports multiple variant types: SNPs, InDels, SSRs, SV - Powerful genotyping queries - Easily scalable with MongoDB sharding - Transparent access - Takes phasing information into account when importing/exporting in VCF format Distance: Comparaison de séquences 2 à 2 et à chaque paire on associe une distance de divergence (calcul utilisant un modèle d’évolution donné) => Matrice de distance. On choisit l’arbre avec la plus courte somme de distances. Parcimonie: Sélectionne l’arbre nécessitant le minimum de changements évolutifs (d’évènements de substitution) Bonne approximation dans les régions où les séquences sont proches Likelihood: Méthode probabiliste basé sur une heuristique. Pour une topologie et longueurs de branches données, on estime pour chaque site la probabilité que le pattern de nucléotides observés ait évolué le long de cet arbre. On calcule la vraisemblance de tous les arbres possibles et on retient celui ayant la plus haute vraisemblance… Inférence Bayesienne: basé sur les Chaines de Markov Monte Carlo (MCMC) pour échantilloner des arbres à partir de distribution de topologies d’arbres. A. Dereeper, G. Sarah, F. Sabot A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015 Bioinformatics trainings, Vietnam Hanoi, November, 2015
11
http://gigwa.southgreen.fr/gigwa/ Distance:
Comparaison de séquences 2 à 2 et à chaque paire on associe une distance de divergence (calcul utilisant un modèle d’évolution donné) => Matrice de distance. On choisit l’arbre avec la plus courte somme de distances. Parcimonie: Sélectionne l’arbre nécessitant le minimum de changements évolutifs (d’évènements de substitution) Bonne approximation dans les régions où les séquences sont proches Likelihood: Méthode probabiliste basé sur une heuristique. Pour une topologie et longueurs de branches données, on estime pour chaque site la probabilité que le pattern de nucléotides observés ait évolué le long de cet arbre. On calcule la vraisemblance de tous les arbres possibles et on retient celui ayant la plus haute vraisemblance… Inférence Bayesienne: basé sur les Chaines de Markov Monte Carlo (MCMC) pour échantilloner des arbres à partir de distribution de topologies d’arbres. A. Dereeper, G. Sarah, F. Sabot, Y. Hueber A. Dereeper, G. Sarah, F. Sabot Formation Bio-informatique, 9 au 13 février 2015 Bioinformatics trainings, Vietnam Hanoi, November, 2015
12
SNiPlay: Web application for polymorphism analyses
Distance: Comparaison de séquences 2 à 2 et à chaque paire on associe une distance de divergence (calcul utilisant un modèle d’évolution donné) => Matrice de distance. On choisit l’arbre avec la plus courte somme de distances. Parcimonie: Sélectionne l’arbre nécessitant le minimum de changements évolutifs (d’évènements de substitution) Bonne approximation dans les régions où les séquences sont proches Likelihood: Méthode probabiliste basé sur une heuristique. Pour une topologie et longueurs de branches données, on estime pour chaque site la probabilité que le pattern de nucléotides observés ait évolué le long de cet arbre. On calcule la vraisemblance de tous les arbres possibles et on retient celui ayant la plus haute vraisemblance… Inférence Bayesienne: basé sur les Chaines de Markov Monte Carlo (MCMC) pour échantilloner des arbres à partir de distribution de topologies d’arbres. A. Dereeper, G. Sarah, F. Sabot A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015 Bioinformatics trainings, Vietnam Hanoi, November, 2015
13
IFB project “Galaxy4Sniplay” (WP4 IFB, Plant node)
A. Dereeper, G. Sarah, F. Sabot, Y. Hueber A. Dereeper, G. Sarah, F. Sabot Formation Bio-informatique, 9 au 13 février 2015 Bioinformatics trainings, Vietnam Hanoi, November, 2015
14
Available using Galaxy Toolshed Installable on any Galaxy instance
A. Dereeper, G. Sarah, F. Sabot, Y. Hueber A. Dereeper, G. Sarah, F. Sabot Formation Bio-informatique, 9 au 13 février 2015 Bioinformatics trainings, Vietnam Hanoi, November, 2015
15
Bioinformatics trainings, Vietnam Hanoi, November, 2015
Upload a VCF file in SNiPlay Upload a VCF file (+ reference if not available in genome collection) Select rice genome The reference corresponce to mRNA A. Dereeper, G. Sarah, F. Sabot Bioinformatics trainings, Vietnam Hanoi, November, 2015 15 15
16
Filters using VCFtools or Gigwa Maf Missing data Annotation Position…
A. Dereeper, G. Sarah, F. Sabot, Y. Hueber A. Dereeper, G. Sarah, F. Sabot Formation Bio-informatique, 9 au 13 février 2015 Bioinformatics trainings, Vietnam Hanoi, November, 2015
17
SNP annotation using SnpEff
A. Dereeper, G. Sarah, F. Sabot, Y. Hueber A. Dereeper, G. Sarah, F. Sabot Formation Bio-informatique, 9 au 13 février 2015 Bioinformatics trainings, Vietnam Hanoi, November, 2015
18
A. Dereeper, G. Sarah, F. Sabot, Y. Hueber
Formation Bio-informatique, 9 au 13 février 2015 Bioinformatics trainings, Vietnam Hanoi, November, 2015
19
sNMF Test different values of K
(estimates the probability (likelihood tests) that samples are structured in K populations) For the best value of K, the application shows Q estimates for each individual (admixture percent) (probability that the individual belongs to each population)
20
MDS (Multi-Dimensional Scale) plot
SNP-based Distance tree with FastME
21
Used to measure the degree of polymorphism within a population
Diversity analysis Pi: Nucleotide diversity: Average number of nucleotide differences per site between any two DNA sequences chosen randomly from the sample population Used to measure the degree of polymorphism within a population Comparison between individuals A. Dereeper, G. Sarah, F. Sabot A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015 Bioinformatics trainings, Vietnam Hanoi, November, 2015
22
=> Can allows the detection of introgression
Introgression = Movement of a exogene region (gene flow) from one species into the gene pool of another by the repeated backcrossing of an interspecific hybrid with one of its parent species Widely used in agronomy obtained but can occurs naturally A. Dereeper, G. Sarah, F. Sabot, Y. Hueber A. Dereeper, G. Sarah, F. Sabot Formation Bio-informatique, 9 au 13 février 2015 Bioinformatics trainings, Vietnam Hanoi, November, 2015
23
Haplotypes Haplotype reconstruction using Gevalt
High frequency haplotypes Low frequency haplotype Group distribution whithin this haplotype Distance between 2 haplotypes (nb of mutations) Haplotypes Haplotype reconstruction using Gevalt Network with Haplophyle Available only for regions presenting few variants (short regions, genes) Exploit phased VCF (in progress…) A. Dereeper, G. Sarah, F. Sabot A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015 Bioinformatics trainings, Vietnam Hanoi, November, 2015
24
Design de puces Illumina Illumina ship design
Submission file for Illumina Fichier de soumission pour Illumina Genotypage file Analyse with BeadStudio software Cartesian coordinates A. Dereeper, G. Sarah, F. Sabot A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015 Bioinformatics trainings, Vietnam Hanoi, November, 2015
25
GWAS (Genome-Wide Association Studies)
Estimate association between a marker and a phenotypic character Manhattan plots: displays GWAS statistical tests (-log10 pvalue) along chromosomes TASSEL, MLMM sofwares False positives because of the studied structuration panel => correction using structure population et and kinship A. Dereeper, G. Sarah, F. Sabot, Y. Hueber A. Dereeper, G. Sarah, F. Sabot Formation Bio-informatique, 9 au 13 février 2015 Bioinformatics trainings, Vietnam Hanoi, November, 2015
26
TD: Study of root charaters using GWAS in Oryza sativa japonica
TD: Study of root charaters using GWAS in Oryza sativa japonica. Influence of a correction using structure and kinship A. Dereeper, G. Sarah, F. Sabot A. Dereeper, G. Sarah, F. Sabot, Y. Hueber Formation Bio-informatique, 9 au 13 février 2015 Bioinformatics trainings, Vietnam Hanoi, November, 2015
27
Analyse de structure de populations Population structure analysis
Test different values of K (estimates of probability that samples are structured in K populations) For the best value of K, the application shows Q estimates for each individual (admixture percent) A. Dereeper, G. Sarah, F. Sabot, Y. Hueber A. Dereeper, G. Sarah, F. Sabot Formation Bio-informatique, 9 au 13 février 2015 Bioinformatics trainings, Vietnam Hanoi, November, 2015
28
Relatedness between individuals (kinship matrix)
TASSEL and plink softwares Estimation of relatedness between individuals using a distance matrix A. Dereeper, G. Sarah, F. Sabot, Y. Hueber A. Dereeper, G. Sarah, F. Sabot Formation Bio-informatique, 9 au 13 février 2015 Bioinformatics trainings, Vietnam Hanoi, November, 2015
Similar presentations
© 2024 SlidePlayer.com. Inc.
All rights reserved.