Presentation is loading. Please wait.

Presentation is loading. Please wait.

חיזוי ואפיון אתרי קישור של חלבון לדנ"א מתוך הרצף

Similar presentations


Presentation on theme: "חיזוי ואפיון אתרי קישור של חלבון לדנ"א מתוך הרצף"— Presentation transcript:

1 חיזוי ואפיון אתרי קישור של חלבון לדנ"א מתוך הרצף
חיזוי ואפיון אתרי קישור של חלבון לדנ"א מתוך הרצף Prediction and Characterization of DNA-Protein Interfaces from Sequence במסגרת הסדנה לפרויקטים בביולוגיה חישובית אוניברסיטת בר-אילן, הפקולטה למדעי החיים ע"ש מינה ואברד גודמן מגיש: רון אפלבוים מנחה: ד"ר ינאי עפרן

2 רקע – תכונות חלבונים מבנה מרחבי פעילות רצף
מבנה ראשוני: רצף חומצות האמינו ייחודי לכל חלבון, וקובע את המבנה המרחבי ואת הפעילות שלו ניתן להסיק ישירות מרצף ה DNA המקודד לחלבון נקבע בשיטות ביוכימיות: Edman degradation mass spectrometry מבנה שלישוני: סידור האטומים במרחב אינטראקציות לא ספציפיות: קשרים הידרופוביים אינטראקציות ספציפיות: גשרי מלח, קשרי מימן, קשרים די-סולפידיים נקבע בשיטות ביו-פיסיקליות: X-ray crystallography NMR קביעת המבנה יקרה, מורכבת ולא תמיד אפשרית מבנה מרחבי פעילות רצף November 18

3 רקע – חיזוי תכונות חלבון על סמך הרצף
נרצה לקבל כמה שיותר נתונים על חלבון על סמך הרצף, בשיטות חישוביות (in silico) חיזוי המבנה המרחבי של החלבון - באמצעות השוואה להומולוגים עבורם כבר פוענח המבנה ידיעת המבנה לא תמיד עוזרת לדעת משהו על הפעילות ננסה ללמוד מאפיינים ספציפיים במבנה החלבון רצף מבנה מרחבי פעילות חיזוי November 18

4 רקע – קישור חלבונים קישור ספציפי של חלבון נובע מהמבנה המרחבי וקשור לפעילותו (כיס קטליטי, אתר פעולה...) חיזוי יכולת הקישור הספציפית של החלבון תעזור ללמוד על פעילותו רצף מבנה מרחבי יכולת קישור ספציפית פעילות חיזוי November 18

5 רקע – protein-DNA interface
תכונת הקישור ל DNA (או ל RNA), היא תכונה של חלבון שיכולה ללמד אותנו רבות על החלבון pbdID: 1a02 Nuclear factor of activated T cells. Binds a composite DNA site and activate the expression of many immune-response genes November 18

6 רקע – שרת DISIS DNA Interaction Sites Identified From Sequence
Input: FASTA format Output: 0/1 November 18

7 רקע – שרת DISIS P2: finding a linear separator P1: processing an input vector From: Ofran et al, Prediction of DNA-binding residues from sequence November 18

8 רקע – שרת DISIS ניתן לאפיין את הקישור על סמך:
פרופיל אבולוציוני מבנה שניוני חשיפות לממס אפיון הקישור הוא בינארי (קושר / לא קושר) נוגע לחלבונים קושרי DNA בלבד November 18

9 יעדים הפרדה בין קושרי DNA לקושרי RNA הוספת תכונות (attribute)
האם אפיון הקישור ע"פ הרצף שונה בשתי הקבוצות? הפרדה בין קושרי DNA לקושרי RNA אימון מחדש של מערכת ה DISIS הוספת תכונות (attribute) זיהוי הקבוצה אליה החלבון נקשר הוספת מאפיינים (features) פקטור ה- Disorder עד כמה ניתן לאפיין את הקישור עבור קישור לכל תת-קבוצה? האם פקטור ה- Disorder משפיע על הקישור? November 18

10 שיטות וכלים Data Bases PDB: Protein Data Base
3D coordinates of solves complexes HSSP: homology-derived structures of proteins Contains pair-wised MSA for each PDB protein Use Swiss-prot DB with MaxHom algorithm Contains evolutionary profile of the family DSSP: Define Secondary Structure of Proteins Secondary structure (SS) and solvent accessibility (ACC) computed by 3D coordinates Included in HSSP files November 18

11 שיטות וכלים PROF MaxHom PISCES WEKA
Profile-based neural network prediction of protein secondary structure Profile-based neural network prediction of residue solvent accessibility MaxHom Dynamic MSA program, finds similar sequences in DB. Builds a protein family in two-step algorithm PISCES A Protein Sequence Culling Server Capable in producing subsets of sequences from larger sets WEKA A collection of machine learning algorithms for data mining tasks LibSVM: an integrated software for support vector classification radial basis function (RBF) November 18

12 שיטות – למידה ממוחשבת רעיון החיזוי מבוסס בדרך כלל על העיקרון המתמטי של למידה ממוחשבת בשלב הלמידה, האלגוריתם מקבל Data set סט של זוגות סדורים של ווקטורים הוא סט המאפיינים (features) של הדגימה (n מאפיינים) הוא סט התכונות (attributes), של הדגימה (m תכונות) כלומר הדגימה עם n המאפיינים מקיימת את m התכונות האלגוריתם לומד את ה data set, ובעצם יוצר מעין פונקציה Machine-Learning Algorithm November 18

13 שיטות – למידה ממוחשבת חלוקה של ה data-set ל training-set ו- test-set. בעזרת סט האימון הוא לומד, ובעזרת סט המבחן הוא בודק את עצמו. לאחר שהערכנו שהלמידה אכן הצליחה, בעצם בנינו לנו "מכונת למידה" בשלב הביצועי, "מכונת הלמידה" מקבלת כקלט סט מאפיינים חדש ומוציאה כפלט סט תוצאות שהוא בעצם November 18

14 שלבי העבודה שלב ראשון: איסוף ה data
שלב שני: יצירת non-redundant data-set שלב שלישי: אפיון וסיווג ה data שלב רביעי: יצירת ווקטורי הקלט ללמידת המכונה שלב חמישי: אימון המערכת הלומדת ובדיקתה November 18

15 שלב ראשון - data collection
חיפוש הקבצים: לפי שורות ATOM ולא לפי שורות ה SEQRES לפעמים ישנם קטעים במולקולה המופיעים לפי הרצף, אך לא הצליחו לגבש אותם בקריסטלוגרפיה הקבצים יחולקו לשלוש קבוצות קבצים המכילים ח"א ו DNA קבצים המכילים ח"א ו RNA קבצים המכילים ח"א ו DNA וגם RNA קריטריונים לבחירת קובץ pdb שרשרת (אחת לפחות) חומצות אמינו באורך 30 לפחות שרשרת (אחת לפחות) חומצות גרעין באורך 4 לפחות רק קבצים בשיטת X-RAY ללא קבצים המכילים CA only ללא קבצי RIBOSOME November 18

16 תוצאות - data collection
November 18

17 שלב שני –non-redundant data-set
נריץ את רשימות ה pdbID שהתקבלו בשרת PISCES לביצוע data redundancy culling כל קבוצה בנפרד עד 75% דמיון הרצה לפי שרשראות פפטידיות לדוגמא; בחלבון הנ"ל, 1a02, רק שרשרת אחת מהאדומות (F) תיכנס ל data-set, ואילו השנייה לא, כיוון שהיא דומה לה מדי... November 18

18 שלב שלישי - אפיון וסיווג ה data
עבור כל ח"א ב non-redundant data-set נבדוק האם היא נמצאת ב protein-DNA interface ח"א נמצאת באינטראקציה עם ה DNA אם היא קרובה נחשב את הקירבה בעזרת הקואורדינאטות של כל אטום בקובץ הpdb, לפי נוסחת המרחק האוקלידי ערך הסף למרחק מקסימאלי ע"מ ששני אטומים ייחשבו קשורים נקבע ל 5Å , כלומר: November 18

19 שלב שלישי - אפיון וסיווג ה data
protein-DNA interface : אם קיים קשר אחד לפחות בין אטום מח"א לאטום מח"ג, אזי הח"א כולה מסומנת כקושרת חומצת גרעין הנחות עקרונית לכל ח"א באתר הקישור תפקיד אוטונומי בקישור הקישור יחושב לפי ח"א ולא לפי אטומים פונקצית הקרבה נבדקת עבור כל ח"א בנפרד November 18

20 November 18

21 November 18

22 November 18

23 שלב שלישי - אפיון וסיווג ה data
קישור הינו חד-ערכי מהצורה: ח"א יכולה לקשור קבוצה של ח"ג מסוימת בכמה אטומים ח"א אחת יכולה להשתתף בכמה קישורים, וכך לקשור: קבוצות שונות באותה ח"ג מסוימת קבוצות מאותו סוג אך בח"ג שונות סידורית, אפילו זהות נתמקד בקבוצות: פוספט, טבעת סוכרית, בסיס חנקני עבור כל ח"א נוצר בעצם ווקטור קשירה - linking vector November 18

24 שלב שלישי - אפיון וסיווג ה data
לדוגמא, נתונים הקישורים: פרופיל הקישור יהיה: November 18

25 תוצאות – התפלגות הרכב ח"א באתר הקישור
November 18

26 תוצאות – התפלגות הרכב ח"א באתר הקישור
November 18

27 תוצאות – התפלגות הרכב ח"א באתר הקישור
From: Diane Lejeune & Brasseur R, et al. Protein–Nucleic Acid Recognition: Statistical Analysis of Atomic Interactions and Influence of DNA Structure. Proteins. 2005 November 18

28 תוצאות – התפלגות הרכב ח"א באתר הקישור
November 18

29 תוצאות – התפלגות הקישור לפי קבוצות
November 18

30 שלב רביעי - יצירת הווקטורים ללמידה
יצירת הווקטורים ללמידת המכונה עבור כל ח"א אם ח"א אחת קשרה יותר מקבוצה אחת, ווקטור המאפיינים שלה יופיע פעם אחת עבור כל קשירה בעצם יוצרים זוגות של את מרכיבי הווקטורים יש לייצג בצורה נומרית השיקול: כמה שיותר מאפיינים אינפורמטיביים, אך לא להגדיל את הווקטור יותר מידי November 18

31 שלב רביעי – ווקטור המאפיינים
חומצה אמינית ווקטור באורך 20, כאשר כל תא יקבל ערכי integer לפי הפרופיל האבולוציוני בקובץ hssp המתאים ווקטור באורך 22, כאשר תא 21 מייצג BLANK "לפני" הקצה הקרבוכסילי, ותא 22 מייצג BLANK "אחרי" הקצה האמיני NALIGN מס' השרשראות (integer) ב alignment ליצירת הפרופיל האבולוציוני לפי הנתון בקובץ hssp יכול ללמד על רמת החוזק של הנתונים בווקטור הפרופיל אנתרופיה ערך real יחיד, לפי הנתון בקובץ hssp לגבי ווקטור הפרופיל November 18

32 שלב רביעי – ווקטור המאפיינים
מבנה שניוני אחת משלוש: H=helix, E=strand, L=other הייצוג ייעשה בווקטורים בינאריים באורך 3 במבנה שניוני i - תא i יהיה "דלוק" אם הכל אפסים, סימן שלא היה נתון (BLANK) חשיפות לממס ערך integer יחיד November 18

33 שלב רביעי – ווקטור המאפיינים
נתוני מבנה שניוני וחשיפות לממס DSSP: מחושבים על פי המבנה (pdb) PROF: מנובאים על סמך רצף FASTA ניצור רצפי FASTA המתאימים ל data-set שלנו איזה נתונים ניקח? November 18

34 שלב רביעי – ווקטור המאפיינים
מחושבים – למידה יותר טובה ומדויקת בעיה: החשיפות מחושבת לפי כל הקומפלקס, כלומר החלקים החשופים של החלבון כבר חסומים מנובאים – ל- training-set ול- test-set יהיו שגיאות (הזחות) דומות בלמידה נבחר בנתונים של PROF ... November 18

35 שלב רביעי – ווקטור המאפיינים
sliding windows "אמור לי מי חבריך ואומר לך מי אתה" כאשר מסתכלים על ח"א מסוימת, ורוצים לבדוק האם היא קושרת, נרצה להתעניין קצת גם אצל השכנים שלה ולראות את המאפיינים שלהם לכל מאפיין נבחר בנפרד חלון בגודל מתאים. אם גודל החלון הוא K, אז נסתכל על שכנים מימין וגם שכנים משמאל November 18

36 שלב רביעי – ווקטור המאפיינים
סיכום וקטור הקלט: NALINE: 1 Profile: 22*(2k+1) Entropy: (2k+1) SS : (3+1)(2s+1) ACC: (1+1)(2s+1) ווקטור הפלט: סיווג 1/-1 לפי: bond – does it bond? c – does it bond the carbon ring? n – does it bond the nitrogen base? p – does it bond the phosphate? נרמול ל-1; כל קבוצה בפני עצמה November 18

37 תוצאות – התפלגות הדגימות
November 18

38 שלב חמישי – אימון המערכת
LibSVM Cross-validation RBF kernel Confusion Matrix: class-> pos neg TP FN FP TN November 18

39 שלב חמישי – תוצאות חלקיות
הרצת חלק מהדגימות בהתפלגות דומה למכלול הדגימות November 18

40 שלב חמישי – תוצאות חלקיות
RNA DNA class-> pos neg 3190 3236 bond 1174 1009 1204 11344 257 3634 November 18

41 שלב חמישי – תוצאות חלקיות
RNA DNA precision 72.6% 82.0% recall 49.6% 53.8% accuracy 76.6% 79.2% November 18

42 שלב חמישי – תוצאות ראשוניות
RNA - bond class-> pos neg 9384 9931 2958 34648 precision 76.03% recall 48.58% accuracy 77.36% November 18

43 מסקנות שיפור הצלחת הלמידה של DISIS
ניתן לאפיין הבדל בין קושרי DNA לקושרי RNA מבחינת הרכב ה interface ניתן לאפיין הבדל בין סוגי הקשירות השונים November 18

44 לקראת סיום... אימון לפי פרמטרים משתנים הכנסת פקטור ה Disorder
קבוצות DNA , RNA גודל החלון גודל negative test-set סוגי ליבות SVM הכנסת פקטור ה Disorder השוואה למודל רקע רנדומאלי מתאים השוואת יעילות ל DISIS בחירת פרמטרים ובניית שרת... November 18

45 מה בעתיד ? ? האם נצליח לאפיין לפי סוג תת-קבוצה?
האם נצליח לאפיין לפי סוג נוקליאוטיד? האם נצליח לאפיין לפי רצף ספציפי? ? November 18

46 תודות ד"ר ינאי עפרן אריאל פייגלין גיא נמרוד סיון אופיר ענבל סלע
רותם שניר ורד קוניק משה הלל ויעל כהן November 18


Download ppt "חיזוי ואפיון אתרי קישור של חלבון לדנ"א מתוך הרצף"

Similar presentations


Ads by Google