Анализ аминокислотной последовательности: паттерны, домены, семейства … или что, где и как искать?

Slides:



Advertisements
Similar presentations
Duncan Legge EMBL-EBI. Introduction to InterPro Introduction to InterPro Introduction to Protein Signatures & InterPro.
Advertisements

Pfam(Protein families )
Mutiple Motifs Charles Yan Spring Mutiple Motifs.
EBI is an Outstation of the European Molecular Biology Laboratory. Alex Mitchell InterPro team Using InterPro for functional analysis.
Компьютерный анализ белковой последовательности Анализируют только аминокислотную последовательность белка, пренебрегают взаимодействием между боковыми.
Биоинформатика Исследование информационных процессов в биологических системах (клетках, органах, организме, популяции). Изучение и внедрение в компьютерную.
©CMBI 2005 Exploring Protein Sequences - Part 2 Part 1: Patterns and Motifs Profiles Hydropathy Plots Transmembrane helices Antigenic Prediction Signal.
©CMBI 2007 Exploring Protein Sequences Prediction methods exist for all kinds of motifs, signals etc. in newly discovered protein sequences. These are.
Biology 224 Dr. Tom Peavy Sept 27 & 29 Protein Structure & Analysis.
Блок 3. Семейства белков I. Множественное выравнивание Первый курс, весна 2008, А.Б.Рахманинова.
InterPro/prosite UCSC Genome Browser Exercise 3. Turning information into knowledge  The outcome of a sequencing project is masses of raw data  The.
BLAST Что такое выравнивание Выравнивание 2х последовательностей
Protein RNA DNA Predicting Protein Function. Biochemical function (molecular function) What does it do? Kinase??? Ligase??? Page 245.
Структура белка Как предсказать вторичную структуру белка? Как найти и анализировать пространственную структуру, если она известна? Что можно делать, если.
 Нужно много различных протоколов связи  Каждый из них может реализовываться на разных платформах Современные сети Много устройств, компьютеров и сетей.
"The European Molecular Biology Open Software Suite"
Matching Problems in Bioinformatics Charles Yan Fall 2008.
Множественные выравнивания как метод исследования Материалы к занятиям IV блока курса биоинформатики, 2006 А.Б.Рахманинова.
Biology 224 Dr. Tom Peavy Sept 28 & 30
Today’s menu: -UniProt - SwissProt/TrEMBL -PROSITE -Pfam -Gene Onltology Protein and Function Databases Tutorial 7.
3. Сравнение пространственных структур белков. Выравнивание последовательностей гомеодоменов Пример 1: гомеодомены.
Protein analysis and proteomics Friday, 27 January 2006 Introduction to Bioinformatics DA McClellan
What’s next ?? Today 3.3 Protein function 10.3 Protein secondary structure prediction 17.3 Protein tertiary structure prediction 24.3Gene expression &
Swiss-Prot – одна из первых баз данных белковых последовательностей, “gold standard” белковой аннотации. Аннотация выполнена вручную группой профессиональных.
Pattern databases in protein analysis Arthur Gruber Instituto de Ciências Biomédicas Universidade de São Paulo AG-ICB-USP.
Today’s menu: -UniProt - SwissProt/TrEMBL -PROSITE -Pfam -Gene Onltology Protein and Function Databases Tutorial 7.
Today’s menu: -SwissProt/TrEMBL -PROSITE -Pfam -Gene Onltology Protein and Function Databases Tutorial 7.
Protein Structure and Function Prediction. Predicting 3D Structure –Comparative modeling (homology) –Fold recognition (threading) Outstanding difficult.
Cравнение биологических последовательностей А.Б.Рахманинова, 2008.
Protein and Function Databases
Анализ аминокислотной последовательности: паттерны, домены, семейства … или что, где и как искать?
Today’s menu: -UniProt - SwissProt/TrEMBL -PROSITE -Pfam -Gene Onltology Protein and Function Databases Tutorial 7.
Множественное выравнивание С.А.Спирин, весна
Motif searching and protein structure prediction May 26, 2005 Hand in written assignments today! Learning objectives-Learn how to read structure information.
Proteomics: Analyzing proteins space. Protein families Why proteins? Shift of interest from “Genomics” to “Proteomics” Classification of proteins to groups/families.
Remote Homology detection: A motif based approach CS 6890: Bioinformatics - Dr. Yan CS 6890: Bioinformatics - Dr. Yan Swati Adhau Swati Adhau 04/14/06.
Predicting Function (& location & post-tln modifications) from Protein Sequences June 15, 2015.
BTN323: INTRODUCTION TO BIOLOGICAL DATABASES Day2: Specialized Databases Lecturer: Junaid Gamieldien, PhD
Pattern databasesPattern databasesPattern databasesPattern databases Gopalan Vivek.
Identification of Protein Domains Eden Dror Menachem Schechter Computational Biology Seminar 2004.
PROTEIN PATTERN DATABASES. PROTEIN SEQUENCES SUPERFAMILY FAMILY DOMAIN MOTIF SITE RESIDUE.
Good solutions are advantageous Christophe Roos - MediCel ltd Similarity is a tool in understanding the information in a sequence.
Database 5: protein domain/family. Protein domain/family: some definitions Most proteins have « modular » structures Estimation: ~ 3 domains / protein.
Biology 224 Instructor: Tom Peavy Feb 21 & 26, Protein Structure & Analysis.
EBI web resources II: Ensembl and InterPro Yanbin Yin Fall
Sequence analysis: Macromolecular motif recognition Sylvia Nagl.
EBI is an Outstation of the European Molecular Biology Laboratory. Amaia Sangrador InterPro curator Introduction to InterPro.
Multiple Alignments Motifs/Profiles What is multiple alignment? HOW does one do this? WHY does one do this? What do we mean by a motif or profile? BIO520.
BLOCKS Multiply aligned ungapped segments corresponding to most highly conserved regions of proteins- represented in profile.
Protein and RNA Families
Proteins to Proteomes The InterPro Database
Protein Domain Database
Teresa K.Attwood School of Biological Sciences University of Manchester, Oxford Road Manchester M13 9PT, UK Bioinformatics:
PROTEIN PATTERN DATABASES. PROTEIN SEQUENCES SUPERFAMILY FAMILY DOMAIN MOTIF SITE RESIDUE.
Protein domain/family db Secondary databases are the fruit of analyses of the sequences found in the primary sequence db Either manually curated (i.e.
V diagonal lines give equivalent residues ILS TRIVHVNSILPSTN V I L S T R I V I L P E F S T Sequence A Sequence B Dot Plots, Path Matrices, Score Matrices.
V diagonal lines give equivalent residues ILS TRIVHVNSILPSTN V I L S T R I V I L P E F S T Sequence A Sequence B Dot Plots, Path Matrices, Score Matrices.
InterPro Sandra Orchard.
Protein databases Petri Törönen Shamelessly copied from material done by Eija Korpelainen and from CSC bio-opas
 What is MSA (Multiple Sequence Alignment)? What is it good for? How do I use it?  Software and algorithms The programs How they work? Which to use?
Protein families, domains and motifs in functional prediction May 31, 2016.
Protein families, domains and motifs in functional prediction
Bio/Chem-informatics
Functional manual annotation including GO
Demo: Protein Information Resource
Genome Annotation Continued
InterPro An Introduction
A brief on: Domain Families & Classification
PROTEIN PATTERN DATABASES
A brief on: Domain Families & Classification
Presentation transcript:

Анализ аминокислотной последовательности: паттерны, домены, семейства … или что, где и как искать?

Что будем искать ? НАД-связывающий сайт/центр Сайты возможной посттрансляционной модификации (РТМ) Домен 1Домен 2 Гомологичное семейство: особенности последовательностей, характерный тип структуры, функции, таксономия и т.п. Семейство 1 Семейство 3 Семейство 2 «Похожие» семейства Ортологи

Паттерн (pattern) – Позиционно специфическая матрица весов (PSSM) – Профиль–PSSM – Профиль–HМM - Подпись (signature) – «Oтпечатки пальцев» (fingerprints) – Кластер - Место, сайт(site) - Мотив (motif) – Домен (domain) – Семейство – Суперсемейство - Основные понятия и термины ?

Домен – единица эволюции, структуры и функции белков. Домен – компактная, относительно независимо сворачивающаяся структура, относительно консервативная в процессе эволюции. Белки могут состоять из одного или многих доменов. nitrogen fixation positive activator protein

Мотив ? Мотив в аминокислотной последовательности - набор консервативных остатков, важных для функции белка и расположенных на определенном (обычно коротком) расстоянии друг от друга в последовательности. Мотив структуры (структурный мотив) – часто встречающийся в белках элемент пространственной структуры (  -спираль,  - шпилька,  -поворот). В общем случае, структурные мотивы не обязательно соответствуют мотивам в аминокислотным последовательностях. Один домен может содержать один или несколько мотивов в аминокислотной последовательности. Мотив может не входить в домены. Не в любом выравнивании легко найти мотив.

Интуитивно понятно: Семейство - группа белков, имеющая общее происхождение, их аминокислотные последовательности выравниваются по всей длине со значимым весом и имеют сходную доменную структуру. Мнения расходятся, когда речь идет о критериях: насколько должны быть похожи белки одного семейства (id>=30%, id>= 50%) ??? должны белки одного семейства выполнять одну и ту же функцию?? Superfamily Family Subfamily

No comments

Паттерн (pattern) – Позиционно специфическая матрица весов (PSSM) – Профиль–PSSM – Профиль–HМM - Подпись (signature) – «Oтпечатки пальцев» (fingerprints) - Место, сайт(site) - Мотив (motif) – Домен (domain) – Семейство – Суперсемейство - Основные понятия и термины ?

Банки белковых семейств и доменов, производные от банков аминокислотных последовательностей Коллекции мотивов Коллекции доменов PROSITE, 1989 Pfam BLOCKS SMART PRINTS ProDom, 1995 SUPERFAMILY InterPro, 1999 (Integrated Resource of Protein Families)

PROSITE - биологически значимые сайты, паттерны и профили Выравнивание хорошо изучен- ного семейства Функционально важные остатки 4-5 консервативных остатков Паттерн Если находим только«пра- вильные», то ОК Если много лишнего, то увеличиваем паттерн Поиск в SP Паттерн – регулярное выражение UNIX’a: [AC]-x-V-x(4)-{ED} Ala или Cys- х-Val- х- х- х - х- (любой, но не Glu или Asp)

PROSITE - биологически значимые сайты, паттерны и профили

PROSITE Релиз 18.25, документов, 1706 разных паттернов, правил и профилей. Профиль или весовая матрица F K L L S H C L L V F K A F G Q T M F Q Y P I V G Q E L L G F P V V K E A I L K F K V L A A V I A D L E F I S E C I I Q F K L L G N V L V C A C D E F G H I K L M N P Q R S T V W Y

Pfam Большая коллекция множественных выравниваний, доменов, семейств и профилей-HMM для них. Состоит из 2-х частей:  PfamA – курируемая часть, покрывает 73% SWISS-Prot+TrEMBL  PfamB – большое число маленьких семейств из автоматически сгенерированной базы доменов ProDom, не вошедших в PfamA. Удобна для анализа доменной структуры белков.

Pfam 1.Множественное выравнивание (ClustalX) некоторого семейства или кластера. 2.Экспертиза и корректировка выравнивания- затравки. 3.Построение профиля-НММ для затравки. 4.Поиск в базе данных а.к.последовательностей новых членов данной группы.

ProDom Рассматриваются все последовательности в SWISS- Prot+TrEMBL. Автоматическое выделение доменов (программа DOMAINER: сначала локальное попарное выравнивание (blastp) всех против всех, затем кластеризация) Коллекция доменов - > семейств. Некоторые семейства выделены на основе выравниваний из PfamA. Гомогенность семейства оценивается с помощью диаметра (max расстояния между 2 доменами в семействе) и радиуса (ср.кв. расстояние между доменами и консенсусом семейства). Оба параметра измеряются в РАМ

Статистика ProDom Всего – семейств из них содержат более 2 последовательностей. Среднее число доменов в последовательности – 2.8 Средняя длина – ~ 130 а.к. остатков

Pfam Prosite Prints Blocks Smart (ProDom, PIRaln, ProClass, Systers, Picasso etc. not shown) Example: ENTK_HUMAN (Enteropeptidase precursor) Comparison of protein family databases: an example

Создание интегрированной базы данных InterPro PROSITE PFAM PRINTS InterPro entries IPR IPR Интегрирование родственных подписей «вручную» ProDom SMART TIGRFAMs PIRSF SUPERFAMILY InterPro- an inte grated r esource of pro tein families, domains and functional sites.

Entry types in InterPro Family - group of evolutionarily related proteins, that share one or more domains/repeats in common. Domain -independent structural unit which can be found alone or in conjunction with other domains or repeats. Repeat -region occurring more than once that is not expected to fold into a globular domain on its own. PTM (post-translational modification) -The sequence motif is defined by the molecular recognition of this region in a cell. Active site -catalytic pockets of enzymes where the catalytic residues are known. Binding site –binds compounds but is not necessarily involved in catalysis.

Взаимосвязи подписей в InterPro Parent/child уровень семейства Contains/found in состав домена

Parent/child- family level

Contains/found in

PROTOMAP Automatic classification of all SWISS-PROT proteins into groups of related proteins (also including TrEMBL now) Based on pairwise similarities Has hierarchical organisation for sub- and super- family distinctions clusters, 5869  2 proteins, 1403  10 Keeps SP annotation eg description, keywords Can search with a sequence -classify it into existing clusters