חיזוי ואפיון אתרי קישור של חלבון לדנ"א מתוך הרצף

Slides:



Advertisements
Similar presentations
(SubLoc) Support vector machine approach for protein subcelluar localization prediction (SubLoc) Kim Hye Jin Intelligent Multimedia Lab
Advertisements

1 Applications of Dynamic Programming zTo sequence analysis Shotgun sequence assembly Multiple alignments Dispersed & tandem repeats Bird song alignments.
Presented By Dr. Shazzad Hosain Asst. Prof. EECS, NSU Multiple Sequence Alignment Motif Finding and Gene Prediction.
1 Protein Structure, Structure Classification and Prediction Bioinformatics X3 January 2005 P. Johansson, D. Madsen Dept.of Cell & Molecular Biology, Uppsala.
Structural bioinformatics
Structure Prediction. Tertiary protein structure: protein folding Three main approaches: [1] experimental determination (X-ray crystallography, NMR) [2]
Chapter 9 Structure Prediction. Motivation Given a protein, can you predict molecular structure Want to avoid repeated x-ray crystallography, but want.
Protein threading algorithms 1.GenTHREADER Jones, D. T. JMB(1999) 287, Protein Fold Recognition by Prediction-based Threading Rost, B., Schneider,
Protein secondary structure prediction methods TDVEAAVNSLVNLYLQASYLS “From sequence to structure”
Structure Prediction. Tertiary protein structure: protein folding Three main approaches: [1] experimental determination (X-ray crystallography, NMR) [2]
Protein secondary structure prediction methods TDVEAAVNSLVNLYLQASYLS “From sequence to structure”
The Protein Data Bank (PDB)
Introduction to Bioinformatics - Tutorial no. 5 MEME – Discovering motifs in sequences MAST – Searching for motifs in databanks TRANSFAC – The Transcription.
Methods for Improving Protein Disorder Prediction Slobodan Vucetic1, Predrag Radivojac3, Zoran Obradovic3, Celeste J. Brown2, Keith Dunker2 1 School of.
Structure Prediction in 1D
Protein Tertiary Structure Prediction Structural Bioinformatics.
CISC667, F05, Lec27, Liao1 CISC 667 Intro to Bioinformatics (Fall 2005) Review Session.
Bioinformatics for biomedicine Protein domains and 3D structure Lecture 4, Per Kraulis
Protein Tertiary Structure Prediction
Cédric Notredame (30/08/2015) Chemoinformatics And Bioinformatics Cédric Notredame Molecular Biology Bioinformatics Chemoinformatics Chemistry.
Lecture 11, CS5671 Secondary Structure Prediction Progressive improvement –Chou-Fasman rules –Qian-Sejnowski –Burkhard-Rost PHD –Riis-Krogh Chou-Fasman.
LSM3241: Bioinformatics and Biocomputing Lecture 3: Machine learning method for protein function prediction Prof. Chen Yu Zong Tel:
Friday 17 rd December 2004Stuart Young Capstone Project Presentation Predicting Deleterious Mutations Young SP, Radivojac P, Mooney SD.
 Four levels of protein structure  Linear  Sub-Structure  3D Structure  Complex Structure.
Protein Secondary Structure Prediction. Input: protein sequence Output: for each residue its associated Secondary structure (SS): alpha-helix, beta-strand,
Multiple Alignment and Phylogenetic Trees Csc 487/687 Computing for Bioinformatics.
Protein Local 3D Structure Prediction by Super Granule Support Vector Machines (Super GSVM) Dr. Bernard Chen Assistant Professor Department of Computer.
© Wiley Publishing All Rights Reserved. Protein 3D Structures.
From Structure to Function. Given a protein structure can we predict the function of a protein when we do not have a known homolog in the database ?
Computational prediction of protein-protein interactions Rong Liu
2 o structure, TM regions, and solvent accessibility Topic 13 Chapter 29, Du and Bourne “Structural Bioinformatics”
ARE THESE ALL BEARS? WHICH ONES ARE MORE CLOSELY RELATED?
Protein-Protein Interaction Hotspots Carved into Sequences Yanay Ofran 1,2, Burkhard Rost 1,2,3 1.Department of Biochemistry and Molecular Biophysics,
Biological Signal Detection for Protein Function Prediction Investigators: Yang Dai Prime Grant Support: NSF Problem Statement and Motivation Technical.
Data Classification with the Radial Basis Function Network Based on a Novel Kernel Density Estimation Algorithm Yen-Jen Oyang Department of Computer Science.
Meng-Han Yang September 9, 2009 A sequence-based hybrid predictor for identifying conformationally ambivalent regions in proteins.
PREDICTION OF CATALYTIC RESIDUES IN PROTEINS USING MACHINE-LEARNING TECHNIQUES Natalia V. Petrova (Ph.D. Student, Georgetown University, Biochemistry Department),
Identification of amino acid residues in protein-protein interaction interfaces using machine learning and a comparative analysis of the generalized sequence-
Introduction to Protein Structure Prediction BMI/CS 576 Colin Dewey Fall 2008.
컴퓨터 과학부 김명재.  Introduction  Data Preprocessing  Model Selection  Experiments.
LOGO iDNA-Prot|dis: Identifying DNA-Binding Proteins by Incorporating Amino Acid Distance- Pairs and Reduced Alphabet Profile into the General Pseudo Amino.
Bioinformatics and Computational Biology
DNA Microarray Data Analysis using Artificial Neural Network Models. by Venkatanand Venkatachalapathy (‘Venkat’) ECE/ CS/ ME 539 Course Project.
 Developed Struct-SVM classifier that takes into account domain knowledge to improve identification of protein-RNA interface residues  Results show that.
Prediction of Protein Binding Sites in Protein Structures Using Hidden Markov Support Vector Machine.
Structural classification of Proteins SCOP Classification: consists of a database Family Evolutionarily related with a significant sequence identity Superfamily.
Final Report (30% final score) Bin Liu, PhD, Associate Professor.
Ubiquitination Sites Prediction Dah Mee Ko Advisor: Dr.Predrag Radivojac School of Informatics Indiana University May 22, 2009.
Protein Tertiary Structure Prediction Structural Bioinformatics.
The University of Texas at Austin, CS 395T, Spring 2008, Prof. William H. Press 1 Computational Statistics with Application to Bioinformatics Prof. William.
Sequence: PFAM Used example: Database of protein domain families. It is based on manually curated alignments.
PROTEIN MODELLING Presented by Sadhana S.
Computational Structure Prediction
Zhenshan, Wen SVM Implementation Zhenshan, Wen
Data-intensive Computing: Case Study Area 1: Bioinformatics
Mirela Andronescu February 22, 2005 Lab 8.3 (c) 2005 CGDN.
SMA5422: Special Topics in Biotechnology
Prediction of RNA Binding Protein Using Machine Learning Technique
Machine Learning Week 1.
Extra Tree Classifier-WS3 Bagging Classifier-WS3
Using SVM for Expression Micro-array Data Mining
Predicting Active Site Residue Annotations in the Pfam Database
Support Vector Machine (SVM)

Online Learning Kernels
Sequence Based Analysis Tutorial
Artificial Neural Networks Thomas Nordahl Petersen & Morten Nielsen
Protein structure prediction.
Protein Disorder Prediction
Protein Structure Prediction by A Data-level Parallel Proceedings of the 1989 ACM/IEEE conference on Supercomputing Speaker : Chuan-Cheng Lin Advisor.
Presentation transcript:

חיזוי ואפיון אתרי קישור של חלבון לדנ"א מתוך הרצף חיזוי ואפיון אתרי קישור של חלבון לדנ"א מתוך הרצף Prediction and Characterization of DNA-Protein Interfaces from Sequence במסגרת הסדנה לפרויקטים בביולוגיה חישובית 89-385 אוניברסיטת בר-אילן, הפקולטה למדעי החיים ע"ש מינה ואברד גודמן מגיש: רון אפלבוים מנחה: ד"ר ינאי עפרן

רקע – תכונות חלבונים מבנה מרחבי פעילות רצף מבנה ראשוני: רצף חומצות האמינו ייחודי לכל חלבון, וקובע את המבנה המרחבי ואת הפעילות שלו ניתן להסיק ישירות מרצף ה DNA המקודד לחלבון נקבע בשיטות ביוכימיות: Edman degradation mass spectrometry מבנה שלישוני: סידור האטומים במרחב אינטראקציות לא ספציפיות: קשרים הידרופוביים אינטראקציות ספציפיות: גשרי מלח, קשרי מימן, קשרים די-סולפידיים נקבע בשיטות ביו-פיסיקליות: X-ray crystallography NMR קביעת המבנה יקרה, מורכבת ולא תמיד אפשרית מבנה מרחבי פעילות רצף November 18

רקע – חיזוי תכונות חלבון על סמך הרצף נרצה לקבל כמה שיותר נתונים על חלבון על סמך הרצף, בשיטות חישוביות (in silico) חיזוי המבנה המרחבי של החלבון - באמצעות השוואה להומולוגים עבורם כבר פוענח המבנה ידיעת המבנה לא תמיד עוזרת לדעת משהו על הפעילות ננסה ללמוד מאפיינים ספציפיים במבנה החלבון רצף מבנה מרחבי פעילות חיזוי November 18

רקע – קישור חלבונים קישור ספציפי של חלבון נובע מהמבנה המרחבי וקשור לפעילותו (כיס קטליטי, אתר פעולה...) חיזוי יכולת הקישור הספציפית של החלבון תעזור ללמוד על פעילותו רצף מבנה מרחבי יכולת קישור ספציפית פעילות חיזוי November 18

רקע – protein-DNA interface תכונת הקישור ל DNA (או ל RNA), היא תכונה של חלבון שיכולה ללמד אותנו רבות על החלבון pbdID: 1a02 Nuclear factor of activated T cells. Binds a composite DNA site and activate the expression of many immune-response genes November 18

רקע – שרת DISIS DNA Interaction Sites Identified From Sequence Input: FASTA format Output: 0/1 November 18

רקע – שרת DISIS P2: finding a linear separator P1: processing an input vector From: Ofran et al, Prediction of DNA-binding residues from sequence November 18

רקע – שרת DISIS ניתן לאפיין את הקישור על סמך: פרופיל אבולוציוני מבנה שניוני חשיפות לממס אפיון הקישור הוא בינארי (קושר / לא קושר) נוגע לחלבונים קושרי DNA בלבד November 18

יעדים הפרדה בין קושרי DNA לקושרי RNA הוספת תכונות (attribute) האם אפיון הקישור ע"פ הרצף שונה בשתי הקבוצות? הפרדה בין קושרי DNA לקושרי RNA אימון מחדש של מערכת ה DISIS הוספת תכונות (attribute) זיהוי הקבוצה אליה החלבון נקשר הוספת מאפיינים (features) פקטור ה- Disorder עד כמה ניתן לאפיין את הקישור עבור קישור לכל תת-קבוצה? האם פקטור ה- Disorder משפיע על הקישור? November 18

שיטות וכלים Data Bases PDB: Protein Data Base 3D coordinates of solves complexes HSSP: homology-derived structures of proteins Contains pair-wised MSA for each PDB protein Use Swiss-prot DB with MaxHom algorithm Contains evolutionary profile of the family DSSP: Define Secondary Structure of Proteins Secondary structure (SS) and solvent accessibility (ACC) computed by 3D coordinates Included in HSSP files November 18

שיטות וכלים PROF MaxHom PISCES WEKA Profile-based neural network prediction of protein secondary structure Profile-based neural network prediction of residue solvent accessibility MaxHom Dynamic MSA program, finds similar sequences in DB. Builds a protein family in two-step algorithm PISCES A Protein Sequence Culling Server Capable in producing subsets of sequences from larger sets WEKA A collection of machine learning algorithms for data mining tasks LibSVM: an integrated software for support vector classification radial basis function (RBF) November 18

שיטות – למידה ממוחשבת רעיון החיזוי מבוסס בדרך כלל על העיקרון המתמטי של למידה ממוחשבת בשלב הלמידה, האלגוריתם מקבל Data set סט של זוגות סדורים של ווקטורים הוא סט המאפיינים (features) של הדגימה (n מאפיינים) הוא סט התכונות (attributes), של הדגימה (m תכונות) כלומר הדגימה עם n המאפיינים מקיימת את m התכונות האלגוריתם לומד את ה data set, ובעצם יוצר מעין פונקציה Machine-Learning Algorithm November 18

שיטות – למידה ממוחשבת חלוקה של ה data-set ל training-set ו- test-set. בעזרת סט האימון הוא לומד, ובעזרת סט המבחן הוא בודק את עצמו. לאחר שהערכנו שהלמידה אכן הצליחה, בעצם בנינו לנו "מכונת למידה" בשלב הביצועי, "מכונת הלמידה" מקבלת כקלט סט מאפיינים חדש ומוציאה כפלט סט תוצאות שהוא בעצם November 18

שלבי העבודה שלב ראשון: איסוף ה data שלב שני: יצירת non-redundant data-set שלב שלישי: אפיון וסיווג ה data שלב רביעי: יצירת ווקטורי הקלט ללמידת המכונה שלב חמישי: אימון המערכת הלומדת ובדיקתה November 18

שלב ראשון - data collection חיפוש הקבצים: לפי שורות ATOM ולא לפי שורות ה SEQRES לפעמים ישנם קטעים במולקולה המופיעים לפי הרצף, אך לא הצליחו לגבש אותם בקריסטלוגרפיה הקבצים יחולקו לשלוש קבוצות קבצים המכילים ח"א ו DNA קבצים המכילים ח"א ו RNA קבצים המכילים ח"א ו DNA וגם RNA קריטריונים לבחירת קובץ pdb שרשרת (אחת לפחות) חומצות אמינו באורך 30 לפחות שרשרת (אחת לפחות) חומצות גרעין באורך 4 לפחות רק קבצים בשיטת X-RAY ללא קבצים המכילים CA only ללא קבצי RIBOSOME November 18

תוצאות - data collection November 18

שלב שני –non-redundant data-set נריץ את רשימות ה pdbID שהתקבלו בשרת PISCES לביצוע data redundancy culling כל קבוצה בנפרד עד 75% דמיון הרצה לפי שרשראות פפטידיות לדוגמא; בחלבון הנ"ל, 1a02, רק שרשרת אחת מהאדומות (F) תיכנס ל data-set, ואילו השנייה לא, כיוון שהיא דומה לה מדי... November 18

שלב שלישי - אפיון וסיווג ה data עבור כל ח"א ב non-redundant data-set נבדוק האם היא נמצאת ב protein-DNA interface ח"א נמצאת באינטראקציה עם ה DNA אם היא קרובה נחשב את הקירבה בעזרת הקואורדינאטות של כל אטום בקובץ הpdb, לפי נוסחת המרחק האוקלידי ערך הסף למרחק מקסימאלי ע"מ ששני אטומים ייחשבו קשורים נקבע ל 5Å , כלומר: November 18

שלב שלישי - אפיון וסיווג ה data protein-DNA interface : אם קיים קשר אחד לפחות בין אטום מח"א לאטום מח"ג, אזי הח"א כולה מסומנת כקושרת חומצת גרעין הנחות עקרונית לכל ח"א באתר הקישור תפקיד אוטונומי בקישור הקישור יחושב לפי ח"א ולא לפי אטומים פונקצית הקרבה נבדקת עבור כל ח"א בנפרד November 18

November 18

November 18

November 18

שלב שלישי - אפיון וסיווג ה data קישור הינו חד-ערכי מהצורה: ח"א יכולה לקשור קבוצה של ח"ג מסוימת בכמה אטומים ח"א אחת יכולה להשתתף בכמה קישורים, וכך לקשור: קבוצות שונות באותה ח"ג מסוימת קבוצות מאותו סוג אך בח"ג שונות סידורית, אפילו זהות נתמקד בקבוצות: פוספט, טבעת סוכרית, בסיס חנקני עבור כל ח"א נוצר בעצם ווקטור קשירה - linking vector November 18

שלב שלישי - אפיון וסיווג ה data לדוגמא, נתונים הקישורים: פרופיל הקישור יהיה: November 18

תוצאות – התפלגות הרכב ח"א באתר הקישור November 18

תוצאות – התפלגות הרכב ח"א באתר הקישור November 18

תוצאות – התפלגות הרכב ח"א באתר הקישור From: Diane Lejeune & Brasseur R, et al. Protein–Nucleic Acid Recognition: Statistical Analysis of Atomic Interactions and Influence of DNA Structure. Proteins. 2005 November 18

תוצאות – התפלגות הרכב ח"א באתר הקישור November 18

תוצאות – התפלגות הקישור לפי קבוצות November 18

שלב רביעי - יצירת הווקטורים ללמידה יצירת הווקטורים ללמידת המכונה עבור כל ח"א אם ח"א אחת קשרה יותר מקבוצה אחת, ווקטור המאפיינים שלה יופיע פעם אחת עבור כל קשירה בעצם יוצרים זוגות של את מרכיבי הווקטורים יש לייצג בצורה נומרית השיקול: כמה שיותר מאפיינים אינפורמטיביים, אך לא להגדיל את הווקטור יותר מידי November 18

שלב רביעי – ווקטור המאפיינים חומצה אמינית ווקטור באורך 20, כאשר כל תא יקבל ערכי integer לפי הפרופיל האבולוציוני בקובץ hssp המתאים ווקטור באורך 22, כאשר תא 21 מייצג BLANK "לפני" הקצה הקרבוכסילי, ותא 22 מייצג BLANK "אחרי" הקצה האמיני NALIGN מס' השרשראות (integer) ב alignment ליצירת הפרופיל האבולוציוני לפי הנתון בקובץ hssp יכול ללמד על רמת החוזק של הנתונים בווקטור הפרופיל אנתרופיה ערך real יחיד, לפי הנתון בקובץ hssp לגבי ווקטור הפרופיל November 18

שלב רביעי – ווקטור המאפיינים מבנה שניוני אחת משלוש: H=helix, E=strand, L=other הייצוג ייעשה בווקטורים בינאריים באורך 3 במבנה שניוני i - תא i יהיה "דלוק" אם הכל אפסים, סימן שלא היה נתון (BLANK) חשיפות לממס ערך integer יחיד November 18

שלב רביעי – ווקטור המאפיינים נתוני מבנה שניוני וחשיפות לממס DSSP: מחושבים על פי המבנה (pdb) PROF: מנובאים על סמך רצף FASTA ניצור רצפי FASTA המתאימים ל data-set שלנו איזה נתונים ניקח? November 18

שלב רביעי – ווקטור המאפיינים מחושבים – למידה יותר טובה ומדויקת בעיה: החשיפות מחושבת לפי כל הקומפלקס, כלומר החלקים החשופים של החלבון כבר חסומים מנובאים – ל- training-set ול- test-set יהיו שגיאות (הזחות) דומות בלמידה נבחר בנתונים של PROF ... November 18

שלב רביעי – ווקטור המאפיינים sliding windows "אמור לי מי חבריך ואומר לך מי אתה" כאשר מסתכלים על ח"א מסוימת, ורוצים לבדוק האם היא קושרת, נרצה להתעניין קצת גם אצל השכנים שלה ולראות את המאפיינים שלהם לכל מאפיין נבחר בנפרד חלון בגודל מתאים. אם גודל החלון הוא K, אז נסתכל על שכנים מימין וגם שכנים משמאל November 18

שלב רביעי – ווקטור המאפיינים סיכום וקטור הקלט: NALINE: 1 Profile: 22*(2k+1) Entropy: (2k+1) SS : (3+1)(2s+1) ACC: (1+1)(2s+1) ווקטור הפלט: סיווג 1/-1 לפי: bond – does it bond? c – does it bond the carbon ring? n – does it bond the nitrogen base? p – does it bond the phosphate? נרמול ל-1; כל קבוצה בפני עצמה November 18

תוצאות – התפלגות הדגימות November 18

שלב חמישי – אימון המערכת LibSVM Cross-validation RBF kernel Confusion Matrix: class-> pos neg TP FN FP TN November 18

שלב חמישי – תוצאות חלקיות הרצת חלק מהדגימות בהתפלגות דומה למכלול הדגימות November 18

שלב חמישי – תוצאות חלקיות RNA DNA class-> pos neg 3190 3236 bond 1174 1009 1204 11344 257 3634 November 18

שלב חמישי – תוצאות חלקיות RNA DNA precision 72.6% 82.0% recall 49.6% 53.8% accuracy 76.6% 79.2% November 18

שלב חמישי – תוצאות ראשוניות RNA - bond class-> pos neg 9384 9931 2958 34648 precision 76.03% recall 48.58% accuracy 77.36% November 18

מסקנות שיפור הצלחת הלמידה של DISIS ניתן לאפיין הבדל בין קושרי DNA לקושרי RNA מבחינת הרכב ה interface ניתן לאפיין הבדל בין סוגי הקשירות השונים November 18

לקראת סיום... אימון לפי פרמטרים משתנים הכנסת פקטור ה Disorder קבוצות DNA , RNA גודל החלון גודל negative test-set סוגי ליבות SVM הכנסת פקטור ה Disorder השוואה למודל רקע רנדומאלי מתאים השוואת יעילות ל DISIS בחירת פרמטרים ובניית שרת... November 18

מה בעתיד ? ? האם נצליח לאפיין לפי סוג תת-קבוצה? האם נצליח לאפיין לפי סוג נוקליאוטיד? האם נצליח לאפיין לפי רצף ספציפי? ? November 18

תודות ד"ר ינאי עפרן אריאל פייגלין גיא נמרוד סיון אופיר ענבל סלע רותם שניר ורד קוניק משה הלל ויעל כהן November 18