Selección de SNPs en xenética médica Javier Costas Hospital Clínico Universitario
O Proxecto Xenoma Humano Orixe nos 80 Unha visión global dos xenomas podería acelerar significativamente a investigación biomédica A dimensión do proxecto exixiría un esforzo comunitario de grande envergadura
O Proxecto Xenoma Humano Grande desenvolvemento tecnolóxico Primeiro borrador da secuencia do xenoma humano: febreiro 2001
O Proxecto Xenoma Humano Principais logros iniciais 3 x 109 bp Identificación de 30000-40000 xenes (~22500 xenes) Identificación de marcadores moleculares, microsatélites e SNPs (>1’4 millones) Mapa físico do xenoma
Marcadores moleculares Microsatélites (Simple tandem repeats, STRs) Repeticións de secuencias cortas ACTT CGT CGT CGT CGT CGT CAAT Moi variables SNPs (Single nucleotide polymorphisms) Cambios dun único nucleótido (frecuencia > 1%) AAG T TACG AAG A TACG Moi abundantes (1 SNP/300 bp) Doados de analizar a grande escala
Haplotipos Xenotipo AA(CTT)5,7ACT...CGC(C/T)CAA...CAC(A/T)TG... Cromosoma 1 AA(CTT)7ACT...CGCTCAA...CACTTG... Cromosoma 2 AA(CTT)5ACT...CGCCCAA...CACATG... Haplotipo 1 (CTT)7TT Haplotipo 2 (CTT)5CA
Enfermedades mendelianas Debidas a mutacións nun único xene Pouco frecuentes Ex: Distrofia muscular de Duchenne, -talasemia, hemofilia, fenilcetonuria, fibose cística... OLLO! The methods of lod score analysis described in this chapter require a precise genetic model that specifies the mode of inheritance, gene frequencies and penetrance of each genotype
Human Gene Mutation Database 45875 mutacións en 1800 xenes asociados con enfermedades 1745 descripcións fenotípicas con base molecular coñecida
Mapeo xenético de enfermedades mendelianas Cosegregación de marcador e enfermedade: ligamento en familias Haravuori et al. Am. J. Hum. Genet., 62:620-626, 1998
Enfermedades multifactoriais complexas Alto risco de enfermedade Factores xenéticos de risco Factores ambientais de risco Factores xenéticos de protección Factores ambientais de protección Baixo risco de enfermedade Interaccións xene-xene e xene-ambiente
Enfermedades Mendelianas vs enfermedades complexas Único xene Raras Estudos de ligamento en familias Exemplo: distrofia muscular (DMD), hemofilia, fibrose cística... Múltiples xenes e/ou ambiente Comúns Estudos de asociación en poboacións Exemplos: asma, artrite, cancro, hipertensión, trastorno bipolar...
Estudos de asociación Diferencia significativa en distribución de SNPs en casos e controles Muestreo mais simple que métodos baseados en familias Mais potencia que estudos de ligamento en familias no caso de riscos relativos pequenos
Asociación frente a ligamento Estudos de ligamento en familias Magnitude do efecto Estudos de asociación en poboacións Frecuencia na poboación
Hipótese enfermedade común/variante común Estudos de asociación Hipótese enfermedade común/variante común O risco xenético a padecer enfermedades comúns é xeralmente debido a alelos de predisposición que segregan a frecuencias relativamente elevadas na poboación (Lander, Science 1996) Ex: ApoE4 e Alzheimer: Frec: ~15%, OR: 3’3, GRR-homoz:12
Selección de SNPs Localización (xenes candidato) Validación Frecuencia Secuencia Tipo de SNP (método de asociación) dbSNP (NCBI) http://www.ncbi.nlm.nih.gov/SNP/
dbSNP
Selección de SNPs Localización (xenes candidato) Validación Frecuencia Secuencia Tipo de SNP (método de asociación)
Selección xenes candidato Xenes candidato funcionais (función, expresión, interaccións) Xenes candidato posicionais (ligamento)
> 4800 revistas biomédicas Base bibliográfica: > 4800 revistas biomédicas > 15 millones de referencias
Gene Ontology Vocabulario común para a descripción estructural de funcións protéicas en diferentes organismos organismos modelo Actualmente, más de 16000 termos que describen función molecular, proceso biolóxico, localización celular http://www.geneontology.org/
Ex.1: enfermedades autoinmunes, artrite reumatoide Artritis reumatoide
Ex.2: farmacoxenética Farmacogenética
Rutas metabólicas 100 rutas 300 rutas Listado de vías metabólicas Búsqueda por xene, enzima, composto o combinación de 2
Ruta de sinalización de NF-kB
Selección de SNPs Localización (xenes candidato) Validación Frecuencia Secuencia Tipo de SNP (método de asociación)
dbSNP Validación
dbSNP
Selección de SNPs Localización (xenes candidato) Validación Frecuencia Secuencia Tipo de SNP (método de asociación)
Distribución de frecuencias de SNPs Proporción de polimorfismos Frecuencia do alelo menor
Efecto da frecuencia sobre a potencia dun estudo de asociación caso-control Risco relativo = 2
Diferencias de frecuencias entre poboacións Cambios nas frecuencias xénicas (resultado de mutación, deriva xenética, selección e migración) Hipótese “Out-of-Africa”
Diferencias de frecuencias entre poboacións Colonización paleolítica Dispersión paleolítica post-glaciación Dispersión Neolítica
Selección de SNPs Localización (xenes candidato) Validación Frecuencia Secuencia Tipo de SNP (método de asociación)
Secuencia en torno ao SNP Depende do método de xenotipación (PCR) Non repetitiva SNPs secundarios
Selección de SNPs Localización (xenes candidato) Validación Frecuencia Secuencia Tipo de SNP (método de asociación)
Estudos de asociación Método directo: SNPs funcionais (causais) T C Método indirecto: mapeo por desequilibrio de ligamento (LD) LD LD A T A C C T
Selección de SNPs funcionais SNPs codificantes non sinónimos ou sen senso SNPs que afecten ao “splicing” SNPs en posibles sitios de unión de factores de transcripción (TFBS) SNPs en rexións conservadas
SNPs codificantes non sinónimos ou sen senso Código xenético
SNPs que afecten ao “splicing”
SNPs en posibles sitios de unión de factores de transcripción Rexión promotora Sitios de unión de factores de transcripción (TFBS) Secuencias curtas Pouco específicas Diferente afinidade e especificidade Difíciles de predecir (non existe equivalente ao código xenético das rexións codificantes)
SNPs en posibles sitios de unión de factores de transcripción
SNPs en posibles sitios de unión de factores de transcripción Predicción de TFBS Secuencias consenso: WAACCCTTT Matrices de posicións ponderadas (Positional weight matrices)
SNPs en posibles sitios de unión de factores de transcripción Identificación de TFBS mediante matrices de posicións ponderadas 1) Colección de TFBS coñecidos 2) Xeneración de matrices do aliñamento A 3 3 4 0 0 0 1 1 0 C 0 1 0 5 5 5 0 0 1 G 0 0 0 0 0 0 0 0 0 T 2 1 1 0 0 0 4 4 4 3) Transformación a PWM baseado nas probabilidades a priori A 0.61 0.61 0.87 -1.79 -1.79 -1.79 -0.33 -0.33 -1.79 C -1.79 0.00 -1.79 1.47 1.47 1.47 -1.79 -1.79 0.00 G -1.79 -1.79 -1.79 -1.79 -1.79 -1.79 -1.79 -1.79 -1.79 T 0.25 -0.33 -0.33 -1.79 -1.79 -1.79 0.87 0.87 0.87 Frecuenciaij Pesoij ~ ln Probabilidadei
SNPs en rexións conservadas Se as secuencias non son funcionais acumulación de mutacións co tempo diverxencia Se son funcionais selección eliminando mutacións conservación de secuencias Comparación humano-rato: 5% do xenoma conservado Ex: 1Mb cr11
SNPs en rexións conservadas
SNPs en rexións conservadas http://pipeline.lbl.gov/cgi-bin/vistatrack
Obxectivo: identificación de tódalas secuencias funcionais do xenoma humano
Rexións escollidas na fase inicial: 30Mb, 1% 50% escollidas manualmente: - Xenes (o outros) ben coñecidos - Datos comparativos 14 rexións, 0,5-2Mb 50% escollidas ao longo do xenoma en función da densidade xénica e conservación de rexións non-exónicas 30 rexións de 500 Kb
Estudos de asociación Método directo: SNPs funcionais (causais) T C Método indirecto: mapeo por desequilibrio de ligamento (LD) LD LD A T A C C T
Desequilibrio de ligamiento (LD) Presencia conxunta de dous alelos próximos a unha frecuencia significativamente distinta á esperada en función das súas frecuencias individuais Xene 2 Xene 1 Problema: depende das frecuencias D’ = D/Dmax , –1< D’<1 r2 = D2/fA.fa.fB.fb, 0<r2<1
Orixe do LD ...AACATCTG...ACCTGCCTTA...CCTGTACT... ...AACATCTG...ACCTGCCTTA...CCTGCACT... ...AACTTCTG...ACCTGCCTTA...CCTGCACT... ...AACTTCTG...ACCTGCCTTA...CCTGTACT... ...AACATCTG...ACCTGCCTTA...CCTGTACT... ...AACATCTG...ACCTGCCTTA...CCTGCACT... ...AACTTCTG...ACCCGCCTTA...CCTGTACT... ...AACTTCTG...ACCTGCCTTA...CCTGTACT... A T T A T C T C T T T T Haplotipos Desequilibrio de ligamento (LD)
Mapeo por desequilibrio de ligamento (LD) Non precisa coñecemento previo sobre a funcionalidade do SNP Menor potencia que o método directo, a non ser que o LD sexa perfecto LD LD LD T A C C T A 50% 50% 0% 50% 40% 10%
Bloques haplotípicos Rexións do xenoma humano con baixa diversidade haplotípica e alto LD Definición: Diversidade haplotípica LD Test dos 4 gametos ( recombinación) ACCT ACCT GCCT GCCT GCCC
Bloques haplotípicos: LD
Bloques haplotípicos Haplotipos > 1% Haplotipos > 5% Bloque 2 Se hai recombinación: 2N = 512 haplotipos Sen recombinación: N +1 = 10 haplotipos
Bloques haplotípicos: tagSNPs Haplotipos > 5% tagSNPs Identificación de bloques haplotípicos Selección dun subconxunto de SNPs que identifiquen os distintos haplotipos a frecuencias superiores a un mínimo establecido (5%, 10%)
“LD bins” Conxunto de SNPs, non necesariamente consecutivos, que presentan unha r2 elevada entre eles 1 tagSNP/LD bin
Selección SNPs para mapeo por LD: LD útil O incremento do tamaño muestral preciso para manter a potencia nun estudo de asociación caso-control é inversamente proporcional a r2 Ex.: Se se precisan 1000 casos/controles asumindo que xenotipamos o SNP causal, precisaranse 2000 casos/controles usando un marcador con r2 = 0’5
Xapón, Reino Unido, Canadá, China, EE.UU., Nixeria International HapMap Project Orixe no 2001 Xapón, Reino Unido, Canadá, China, EE.UU., Nixeria Describir os patróns comúns de variación humana Desenvolver un mapa haplotípico do xenoma humano Información disponible públicamente http://www.hapmap.org/index.html.en Densidade mínima 1 SNP/ 5 Kb Identificar SNPs distintivos (tagSNPs)
Mostras de 4 poboacións representativas: International HapMap Project Mostras de 4 poboacións representativas: CEU: 30 tríos de residentes en Utah con ascendencia no norte e oeste de Europa (Centre d'Etude du Polymorphisme Humain, 1980) CHB: 45 chinos Han de Pekín JPT: 45 xaponeses de Tokio YRI: 30 tríos de Yoruba de Ibadan (Nigeria) Fase I finalizada Fase II: incrementar densidade de SNPs nas rexións con pouco LD
International HapMap Project Obxectivo final: Facilitar o descubrimento de variantes de susceptibilidade a enfermedades comúns Reducir o número de SNPs precisos para realizar estudos de asociación de todo o xenoma (whole-genome scans)
71 individuos americanos de ascendencia europea, africana ou china 1.586.383 SNPs 71 individuos americanos de ascendencia europea, africana ou china Disponible públicamente http://genome.perlegen.com/browser/index.html