Что такое K a, K n, K s, d N, d S ? Екатерина Ермакова Алматы, апрель 2006
K a, K n, K s, d N, d S : этимология K constant d distance S, s synonymous N, n nonsynonymous a amino acid altering
альтернативный сплайсинг вторичная структура РНК структура белков сайты связывания … Нуклеотидные замены в кодирующих областях генов распределены неравномерно. Нуклеотидные сайты испытывают различную функциональную нагрузку:
Типичная задача Сравнить скорость и паттерн эволюции нескольких групп кодирующих участков генома, например: постоянно и альтернативно сплайсируемые участки гены, экспрессируемые в сердце и гены, экспрессируемые в пятках
Точечные замены в кодирующей области синонимичныенесинонимичные полезные нейтральные вредные
Универсальный генетический код TCAG T TTTPheTCTSerTATTyrTGTCysT TTCPheTCCSerTACTyrTGCCysC TTALeuTCASerTAAСтопTGAСтопA TTGLeuTCGSerTAGСтопTGGTrpG C CTTLeuCCTProCATHisCGTArgT CTCLeuCCCProCACHisCGCArgC CTALeuCCAProCAAGlnCGAArgA CTGLeuCCGProCAGGlnCGGArgG A ATTIleACTThrAATAsnAGTSerT ATCIleACCThrAACAsnAGCSerC ATAIleACAThrAAALysAGAArgA ATGMetACGThrAAGLysAGGArgG G GTTValGCTAlaGATAspGGTGlyT GTCValGCCAlaGACAspGGCGlyC GTAValGCAAlaGAAGluGGAGlyA GTGValGCGAlaGAGGluGGGGlyG
Что такое d N и d S ? d S (d N ) — это число (не)синонимичных замен, фиксировавшихся в кодирующей последовательности в процессе эволюции, поделенное на суммарный (не)синонимичный потенциал последовательности. Это функции двух моментов времени (t 0,t), но существующие методы позволяют оценить эти функции только если t «сейчас», а t 0 — момент расхождения двух ортологов или дупликация.
А остальные? K a = K n = d N K s = d S ω = d N /d S = K a /K s = K n /K s ω не зависит от времени, это отношение скоростей
Нейтральные замены: на что делим? Не все нуклеотидные замены в геноме нейтральны. Чтобы извлекать информацию из количества «активных» замен, нужно нормировать их количество на «фоновый уровень» нейтральных замен. Какие замены считаются нейтральными - это параметр эволюционной модели. Нуклеотидные замены, которые на практике считают нейтральными: замены в некодирующих участках: интронах, межгенных областях, в т.ч. псевдогенах и повторах; синонимичные замены в кодирующих областях.
d N /d S = ω μ — фоновый уровень мутаций ρ — давление отбора на уровне РНК ω — давление отбора на уровне белка d N = ωρμ d S = ρμ
d N /d S критерий: отбор на уровне аминокислотной последовательности d N /d S < 0 отрицательный отбор d N /d S = 0 нейтральная эволюция d N /d S > 0 положительный отбор
«Жадные» (parsymony) оценки d N и d S Основанные на эволюционных путях: Nei & Gojobori 1986 (однопараметрическая модель) Ina 1995 (двупараметрическая модель)
«Жадные» (parsymony) оценки d N и d S Основанные на учёте вырожденности позиций в кодонах: Pamilo - Bianchi - Lee 1993 Comeron 1995 ATTIleACTThrAATAsn ATCIleACCThrAACAsn ATAIleACAThrAAALys ATGMetACGThrAAGLys Третья позиция кодона ATG невырождена, AAA — 2-вырождена, ATA — 3-вырождена, ACA — 4-вырождена
«Наиболее правдоподобные» (maximum likelyhood) оценки d N и d S Yang & Nielsen 2000 PAML ( Единица эволюции — кодон.
Метод Ины (Ina 1995) простой, но основную «асимметрию» учитывает быстро работает на длинных выравниваниях, позволяет делать bootstrap и оценивать точность допускает усовершенствования
Метод Ины: подготовка выравнивания выравниваем две достаточно длинных кодирующих нуклеотидных последовательности (≥ 300 п.н.) кодоны с делециями выбрасываем
Метод Ины: допущения рассматриваемые последовательности ортологи или паралоги из одного организма с момента расхождения организмов (для ортологов) или с момента дупликации (для паралогов) две рассматриваемые последовательности эволюционировали с одинаковой скоростью
Метод Ины: (не)синонимичный потенциал Каждая позиция нетерминального кодона обладает синонимичным потенциалом s и несинонимичным потенциалом n, s+n=1. В общем случае (не)синонимичный потенциал позиции в кодоне — это вероятность получить (не)синонимичную замену кодона мутацией нуклеотида в этой позиции. Если замена основания в одной из позиций кодона (при прочих фиксированных) приводит к несинонимичной замене кодона, эта позиция называется несинонимичной, для неё s=0, n=1. Если же любая замена основания в данной позиции приводит к синонимичной замене кодона, эта позиция называется синонимичной, для неё s=1, n=0.
Метод Ины: двупараметрическая модель эволюции (Kimura) — скорость транзиций — скорость трансверсий R = /
Метод Ины: s и n могут быть выражены через R
Метод Ины: число нуклеотидных различий между кодонами
Метод Ины: оценивание dN, dS и ω S * — среднее арифметическое суммарных синонимичных потенциалов выравненных последовательностей S Ts * — количество транзиций, наблюдаемых в выравнивании S Tv * — количество наблюдаемых трансверсий Наблюдаемые частоты синонимичных различий — транзиций и трансверсий — в синонимичных позициях: P S * = S Ts * /S * Q S * = S Tv * /S * Оценка d S * для d S получается применением к P S * и Q S * поправки Кимуры на множественные замены: d S * = –1/2 ln(1 – 2 P S * – Q S * ) – 1/4 ln(1 –2 Q S * ) Оценка d N * для d N строится аналогично. Параметр ω оценивается как d N * /d S *.
Метод Ины: оценивание R = / R = 2 ln(1 – 2 P 3 * – Q 3 * ) / ln(1 –2 Q 3 * ) – 1 P 3 * и Q 3 * — наблюдаемые частоты транзиций и трансверсий в третьих позициях кодонов выравнивания
Нуклеотидные замены в постоянных и альтернативных участках альтернативно сплайсируемых генов человека и мыши dNdN Участки кодирующей области: C — постоянные A — альтернативные AN — N-концевые альтернативные AI — внутренние альтернативные AC — С-концевые альтернативные Слева — гены разделены на 3 равные группы по скорости Справа — все альтернативно сплайсируемые гены (3029 штук)
Нуклеотидные замены в постоянных и альтернативных участках альтернативно сплайсируемых генов человека и мыши dSdS
ω