חיזוי ואפיון אתרי קישור של חלבון לדנ"א מתוך הרצף חיזוי ואפיון אתרי קישור של חלבון לדנ"א מתוך הרצף Prediction and Characterization of DNA-Protein Interfaces from Sequence במסגרת הסדנה לפרויקטים בביולוגיה חישובית 89-385 אוניברסיטת בר-אילן, הפקולטה למדעי החיים ע"ש מינה ואברד גודמן מגיש: רון אפלבוים מנחה: ד"ר ינאי עפרן
רקע – תכונות חלבונים מבנה מרחבי פעילות רצף מבנה ראשוני: רצף חומצות האמינו ייחודי לכל חלבון, וקובע את המבנה המרחבי ואת הפעילות שלו ניתן להסיק ישירות מרצף ה DNA המקודד לחלבון נקבע בשיטות ביוכימיות: Edman degradation mass spectrometry מבנה שלישוני: סידור האטומים במרחב אינטראקציות לא ספציפיות: קשרים הידרופוביים אינטראקציות ספציפיות: גשרי מלח, קשרי מימן, קשרים די-סולפידיים נקבע בשיטות ביו-פיסיקליות: X-ray crystallography NMR קביעת המבנה יקרה, מורכבת ולא תמיד אפשרית מבנה מרחבי פעילות רצף November 18
רקע – חיזוי תכונות חלבון על סמך הרצף נרצה לקבל כמה שיותר נתונים על חלבון על סמך הרצף, בשיטות חישוביות (in silico) חיזוי המבנה המרחבי של החלבון - באמצעות השוואה להומולוגים עבורם כבר פוענח המבנה ידיעת המבנה לא תמיד עוזרת לדעת משהו על הפעילות ננסה ללמוד מאפיינים ספציפיים במבנה החלבון רצף מבנה מרחבי פעילות חיזוי November 18
רקע – קישור חלבונים קישור ספציפי של חלבון נובע מהמבנה המרחבי וקשור לפעילותו (כיס קטליטי, אתר פעולה...) חיזוי יכולת הקישור הספציפית של החלבון תעזור ללמוד על פעילותו רצף מבנה מרחבי יכולת קישור ספציפית פעילות חיזוי November 18
רקע – protein-DNA interface תכונת הקישור ל DNA (או ל RNA), היא תכונה של חלבון שיכולה ללמד אותנו רבות על החלבון pbdID: 1a02 Nuclear factor of activated T cells. Binds a composite DNA site and activate the expression of many immune-response genes November 18
רקע – שרת DISIS DNA Interaction Sites Identified From Sequence Input: FASTA format Output: 0/1 November 18
רקע – שרת DISIS P2: finding a linear separator P1: processing an input vector From: Ofran et al, Prediction of DNA-binding residues from sequence November 18
רקע – שרת DISIS ניתן לאפיין את הקישור על סמך: פרופיל אבולוציוני מבנה שניוני חשיפות לממס אפיון הקישור הוא בינארי (קושר / לא קושר) נוגע לחלבונים קושרי DNA בלבד November 18
יעדים הפרדה בין קושרי DNA לקושרי RNA הוספת תכונות (attribute) האם אפיון הקישור ע"פ הרצף שונה בשתי הקבוצות? הפרדה בין קושרי DNA לקושרי RNA אימון מחדש של מערכת ה DISIS הוספת תכונות (attribute) זיהוי הקבוצה אליה החלבון נקשר הוספת מאפיינים (features) פקטור ה- Disorder עד כמה ניתן לאפיין את הקישור עבור קישור לכל תת-קבוצה? האם פקטור ה- Disorder משפיע על הקישור? November 18
שיטות וכלים Data Bases PDB: Protein Data Base 3D coordinates of solves complexes HSSP: homology-derived structures of proteins Contains pair-wised MSA for each PDB protein Use Swiss-prot DB with MaxHom algorithm Contains evolutionary profile of the family DSSP: Define Secondary Structure of Proteins Secondary structure (SS) and solvent accessibility (ACC) computed by 3D coordinates Included in HSSP files November 18
שיטות וכלים PROF MaxHom PISCES WEKA Profile-based neural network prediction of protein secondary structure Profile-based neural network prediction of residue solvent accessibility MaxHom Dynamic MSA program, finds similar sequences in DB. Builds a protein family in two-step algorithm PISCES A Protein Sequence Culling Server Capable in producing subsets of sequences from larger sets WEKA A collection of machine learning algorithms for data mining tasks LibSVM: an integrated software for support vector classification radial basis function (RBF) November 18
שיטות – למידה ממוחשבת רעיון החיזוי מבוסס בדרך כלל על העיקרון המתמטי של למידה ממוחשבת בשלב הלמידה, האלגוריתם מקבל Data set סט של זוגות סדורים של ווקטורים הוא סט המאפיינים (features) של הדגימה (n מאפיינים) הוא סט התכונות (attributes), של הדגימה (m תכונות) כלומר הדגימה עם n המאפיינים מקיימת את m התכונות האלגוריתם לומד את ה data set, ובעצם יוצר מעין פונקציה Machine-Learning Algorithm November 18
שיטות – למידה ממוחשבת חלוקה של ה data-set ל training-set ו- test-set. בעזרת סט האימון הוא לומד, ובעזרת סט המבחן הוא בודק את עצמו. לאחר שהערכנו שהלמידה אכן הצליחה, בעצם בנינו לנו "מכונת למידה" בשלב הביצועי, "מכונת הלמידה" מקבלת כקלט סט מאפיינים חדש ומוציאה כפלט סט תוצאות שהוא בעצם November 18
שלבי העבודה שלב ראשון: איסוף ה data שלב שני: יצירת non-redundant data-set שלב שלישי: אפיון וסיווג ה data שלב רביעי: יצירת ווקטורי הקלט ללמידת המכונה שלב חמישי: אימון המערכת הלומדת ובדיקתה November 18
שלב ראשון - data collection חיפוש הקבצים: לפי שורות ATOM ולא לפי שורות ה SEQRES לפעמים ישנם קטעים במולקולה המופיעים לפי הרצף, אך לא הצליחו לגבש אותם בקריסטלוגרפיה הקבצים יחולקו לשלוש קבוצות קבצים המכילים ח"א ו DNA קבצים המכילים ח"א ו RNA קבצים המכילים ח"א ו DNA וגם RNA קריטריונים לבחירת קובץ pdb שרשרת (אחת לפחות) חומצות אמינו באורך 30 לפחות שרשרת (אחת לפחות) חומצות גרעין באורך 4 לפחות רק קבצים בשיטת X-RAY ללא קבצים המכילים CA only ללא קבצי RIBOSOME November 18
תוצאות - data collection November 18
שלב שני –non-redundant data-set נריץ את רשימות ה pdbID שהתקבלו בשרת PISCES לביצוע data redundancy culling כל קבוצה בנפרד עד 75% דמיון הרצה לפי שרשראות פפטידיות לדוגמא; בחלבון הנ"ל, 1a02, רק שרשרת אחת מהאדומות (F) תיכנס ל data-set, ואילו השנייה לא, כיוון שהיא דומה לה מדי... November 18
שלב שלישי - אפיון וסיווג ה data עבור כל ח"א ב non-redundant data-set נבדוק האם היא נמצאת ב protein-DNA interface ח"א נמצאת באינטראקציה עם ה DNA אם היא קרובה נחשב את הקירבה בעזרת הקואורדינאטות של כל אטום בקובץ הpdb, לפי נוסחת המרחק האוקלידי ערך הסף למרחק מקסימאלי ע"מ ששני אטומים ייחשבו קשורים נקבע ל 5Å , כלומר: November 18
שלב שלישי - אפיון וסיווג ה data protein-DNA interface : אם קיים קשר אחד לפחות בין אטום מח"א לאטום מח"ג, אזי הח"א כולה מסומנת כקושרת חומצת גרעין הנחות עקרונית לכל ח"א באתר הקישור תפקיד אוטונומי בקישור הקישור יחושב לפי ח"א ולא לפי אטומים פונקצית הקרבה נבדקת עבור כל ח"א בנפרד November 18
November 18
November 18
November 18
שלב שלישי - אפיון וסיווג ה data קישור הינו חד-ערכי מהצורה: ח"א יכולה לקשור קבוצה של ח"ג מסוימת בכמה אטומים ח"א אחת יכולה להשתתף בכמה קישורים, וכך לקשור: קבוצות שונות באותה ח"ג מסוימת קבוצות מאותו סוג אך בח"ג שונות סידורית, אפילו זהות נתמקד בקבוצות: פוספט, טבעת סוכרית, בסיס חנקני עבור כל ח"א נוצר בעצם ווקטור קשירה - linking vector November 18
שלב שלישי - אפיון וסיווג ה data לדוגמא, נתונים הקישורים: פרופיל הקישור יהיה: November 18
תוצאות – התפלגות הרכב ח"א באתר הקישור November 18
תוצאות – התפלגות הרכב ח"א באתר הקישור November 18
תוצאות – התפלגות הרכב ח"א באתר הקישור From: Diane Lejeune & Brasseur R, et al. Protein–Nucleic Acid Recognition: Statistical Analysis of Atomic Interactions and Influence of DNA Structure. Proteins. 2005 November 18
תוצאות – התפלגות הרכב ח"א באתר הקישור November 18
תוצאות – התפלגות הקישור לפי קבוצות November 18
שלב רביעי - יצירת הווקטורים ללמידה יצירת הווקטורים ללמידת המכונה עבור כל ח"א אם ח"א אחת קשרה יותר מקבוצה אחת, ווקטור המאפיינים שלה יופיע פעם אחת עבור כל קשירה בעצם יוצרים זוגות של את מרכיבי הווקטורים יש לייצג בצורה נומרית השיקול: כמה שיותר מאפיינים אינפורמטיביים, אך לא להגדיל את הווקטור יותר מידי November 18
שלב רביעי – ווקטור המאפיינים חומצה אמינית ווקטור באורך 20, כאשר כל תא יקבל ערכי integer לפי הפרופיל האבולוציוני בקובץ hssp המתאים ווקטור באורך 22, כאשר תא 21 מייצג BLANK "לפני" הקצה הקרבוכסילי, ותא 22 מייצג BLANK "אחרי" הקצה האמיני NALIGN מס' השרשראות (integer) ב alignment ליצירת הפרופיל האבולוציוני לפי הנתון בקובץ hssp יכול ללמד על רמת החוזק של הנתונים בווקטור הפרופיל אנתרופיה ערך real יחיד, לפי הנתון בקובץ hssp לגבי ווקטור הפרופיל November 18
שלב רביעי – ווקטור המאפיינים מבנה שניוני אחת משלוש: H=helix, E=strand, L=other הייצוג ייעשה בווקטורים בינאריים באורך 3 במבנה שניוני i - תא i יהיה "דלוק" אם הכל אפסים, סימן שלא היה נתון (BLANK) חשיפות לממס ערך integer יחיד November 18
שלב רביעי – ווקטור המאפיינים נתוני מבנה שניוני וחשיפות לממס DSSP: מחושבים על פי המבנה (pdb) PROF: מנובאים על סמך רצף FASTA ניצור רצפי FASTA המתאימים ל data-set שלנו איזה נתונים ניקח? November 18
שלב רביעי – ווקטור המאפיינים מחושבים – למידה יותר טובה ומדויקת בעיה: החשיפות מחושבת לפי כל הקומפלקס, כלומר החלקים החשופים של החלבון כבר חסומים מנובאים – ל- training-set ול- test-set יהיו שגיאות (הזחות) דומות בלמידה נבחר בנתונים של PROF ... November 18
שלב רביעי – ווקטור המאפיינים sliding windows "אמור לי מי חבריך ואומר לך מי אתה" כאשר מסתכלים על ח"א מסוימת, ורוצים לבדוק האם היא קושרת, נרצה להתעניין קצת גם אצל השכנים שלה ולראות את המאפיינים שלהם לכל מאפיין נבחר בנפרד חלון בגודל מתאים. אם גודל החלון הוא K, אז נסתכל על שכנים מימין וגם שכנים משמאל November 18
שלב רביעי – ווקטור המאפיינים סיכום וקטור הקלט: NALINE: 1 Profile: 22*(2k+1) Entropy: (2k+1) SS : (3+1)(2s+1) ACC: (1+1)(2s+1) ווקטור הפלט: סיווג 1/-1 לפי: bond – does it bond? c – does it bond the carbon ring? n – does it bond the nitrogen base? p – does it bond the phosphate? נרמול ל-1; כל קבוצה בפני עצמה November 18
תוצאות – התפלגות הדגימות November 18
שלב חמישי – אימון המערכת LibSVM Cross-validation RBF kernel Confusion Matrix: class-> pos neg TP FN FP TN November 18
שלב חמישי – תוצאות חלקיות הרצת חלק מהדגימות בהתפלגות דומה למכלול הדגימות November 18
שלב חמישי – תוצאות חלקיות RNA DNA class-> pos neg 3190 3236 bond 1174 1009 1204 11344 257 3634 November 18
שלב חמישי – תוצאות חלקיות RNA DNA precision 72.6% 82.0% recall 49.6% 53.8% accuracy 76.6% 79.2% November 18
שלב חמישי – תוצאות ראשוניות RNA - bond class-> pos neg 9384 9931 2958 34648 precision 76.03% recall 48.58% accuracy 77.36% November 18
מסקנות שיפור הצלחת הלמידה של DISIS ניתן לאפיין הבדל בין קושרי DNA לקושרי RNA מבחינת הרכב ה interface ניתן לאפיין הבדל בין סוגי הקשירות השונים November 18
לקראת סיום... אימון לפי פרמטרים משתנים הכנסת פקטור ה Disorder קבוצות DNA , RNA גודל החלון גודל negative test-set סוגי ליבות SVM הכנסת פקטור ה Disorder השוואה למודל רקע רנדומאלי מתאים השוואת יעילות ל DISIS בחירת פרמטרים ובניית שרת... November 18
מה בעתיד ? ? האם נצליח לאפיין לפי סוג תת-קבוצה? האם נצליח לאפיין לפי סוג נוקליאוטיד? האם נצליח לאפיין לפי רצף ספציפי? ? November 18
תודות ד"ר ינאי עפרן אריאל פייגלין גיא נמרוד סיון אופיר ענבל סלע רותם שניר ורד קוניק משה הלל ויעל כהן November 18