Presentation is loading. Please wait.

Presentation is loading. Please wait.

השוואת רצפים.

Similar presentations


Presentation on theme: "השוואת רצפים."— Presentation transcript:

1 השוואת רצפים

2 השוואה בין שני רצפים ביולוגיים: מדוע משווים?
1. התאמה של רצף אחד שלגביו לא ידוע לנו דבר (למשל רצף חלבון שבודדנו במעבדה), לרצף שני שידוע שהוא "שייך" שלגביו ידועים פרטים נוספים. ההנחה היא שמאופן הדמיון בין הרצפים נוכל להשליך מהידע לגבי תיפקודו של החלבון המוכר לגבי תיפקודו של החלבון הלא-מוכר. 2. שני רצפים מוכרים כאשר מפרטי ההשוואה נרצה ללמוד על מה דומה ומה שונה בינהם. שימו לב: כאשר יש רצף נתון ורוצים לבדוק האם קיים לו בכלל רצף דומה במאגר המידע, משתמשים בכלים אחרים שנועדו לחיפושים במאגרי מידע, למשל ב BLAST

3 השוואה בין שני רצפים ביולוגיים: מי משווים?
גנום או רצף של יחידה בודדת (גן או חלבון) דנ"א או חלבון איך משווים? השוואה ישירה: (לספור אותיות דומות) T H E R E W A S A S M A L L G A P | | | | | H E R E I S A S M A L L E R G A P 5/17

4 שיטה כמותית להשוואה בין רצפים: התאמת רצפים Sequence Alignment
הצגת הרצפים זה מעל זה באופן שיבליט את האותיות והאיזורים הדומים ברצפים. בדר"כ יש צורך לפתוח רווחים בשני הרצפים ע"מ להגיע למצב שבו מקסימום האותיות הזהות או הדומות יופיעו זו מעל זו. למשל עבור הרצפים AACGTAGATA ו ATACGGAGAA התאמה אפשרית היא: A-ACGTAGATA ATACGGAGA-A

5 שיטה כמותית להשוואה בין רצפים: התאמת רצפים Sequence Alignment
כאשר עוסקים בהתאמת רצפים יש להתייחס לשלוש שאלות: א. כימות המדד לאיכות ההתאמה. כלומר אם נתונות שתי התאמות שונות בין זוג רצפים איך נדע מי טובה יותר? אינטואיטיבית ניתן ציון טוב יותר להתאמה שבה על ידי הוספה של מינימום רווחים נקבל מקסימום של אותיות זהות הנמצאות זו מעל זו. צריך להפוך אינטואיציה זו למדד כמותי. ב. השיטה (האלגוריתם) לחישוב ההתאמה האופטימלית: נניח שהחלטנו בסעיף א' על מדד כמותי לאיכות ההתאמה, כלומר אם ההתאמה כבר נתונה אנו יודעים איך לחשב את ערכה המספרי. עדיין קיימת השאלה המרכזית, כאשר נתונים זוג רצפים מהי השיטה שבה נבנה את ההתאמה הטובה ביותר? ברור שיש מספר עצום של אפשרויות שונות לפתוח רווחים בתוך כל רצף ועל ידי כך ליצור התאמות שונות. אנו מחפשים אלגוריתם יעיל שיאפשר למצוא את ההתאמה האופטימלית בזמן חישוב סביר. ג. לאחר חישוב ההתאמה האופטימלית, מהי הדרך המקובלת להציג את ההתאמה?

6 מה המספר המינימלי של פעולות עריכה הנדרש ע"מ להגיע מרצף אחד לשני?
פעולות עריכה: הוספת אות, הורדת אות, החלפת אות. המרחק נקרא מרחק עריכה (EDIT-DISTANCE) T H E R E W A S A S M A L L G A P H E R E W A S A S M A L L G A P H E R E A S A S M A L L*G A P H E R E A S A S M A L L E*G A P H E R E A S A S M A L L E R G A P H E R E I S A S M A L L E R G A P

7 אם בונים התאמה שמשקפת את רצף הפעולות שבצענו, רואים שהדמיון עולה

8 את הבעיה פותרים בתהליך חישובי המכונה תיכנות דינמי (תיכנון דינמי) (DP-Dynamic Programming)
(למעשה השם הנכון הוא תיכנון דינמי אבל המינוח תיכנות דינמי השתרש). בתיכנות דינמי, פותרים בעיות מסובכות שלא ניתן לפתור אותן ישירות, על ידי פיצול הבעיה לבעיות חלקיות ההולכות וגדלות. אלגוריתם התיכנות הדינמי פותר את הבעיות החלקיות ושומר את התשובות בטבלה, והפתרון לבעיות החלקיות הגדולות מסתמך על הפתרונות לבעיות החלקיות הקטנות יותר שכבר נפתרו. בסיום התהליך מגיעים לפתרון הבעיה הראשית. את העבודה בשיטת התכנון הדינמי להתאמת רצפים נחלק טכנית לשלושה שלבים: שלב א - איתחול: מילוי שורת ועמודת האפס שלב ב - מילוי המטריצה: מילוי כל תא ע"ס הערך של שלושה תאים שכבר חושבו שלב ג - סיום: שיחזור לאחור של המסלול לפי השלבים שיצרו את הפתרון האופטימלי ובניית ההתאמה לפי המסלול

9

10

11 אנו בודקים את כל האפשרויות ובוחרים בזולה ביותר
למילוי כל משבצת יש שלוש אפשרויות: להגיע מלמעלה (שקול למחיקת אות) יש להוסיף מחיר מחיקה להגיע מצד שמאל (שקול להוספת אות) יש להוסיף מחיר הוספה להגיע מהאלכסון : אם האותיות המותאמות שונות (שקול להחלפת אות) להוסיף מחיר החלפה אם האותיות זהות – אין צורך בתשלום נוסף (נניח בשלב ראשון שמחיר כל הפעולות (מחיקה, הוספה, החלפה) זהה ושווה ל 1 ) אנו בודקים את כל האפשרויות ובוחרים בזולה ביותר

12

13

14 תת הטבלה המסומנת נותנת את מרחק העריכה בין
תתי המחרוזות הרלונטיות: למשל המרחק WAS S _ I שווה ל 2 ולכן עם נמשיך את התהליך עד למילוי הטבלה כולה נקבל את מרחק העריכה הגלובלי

15

16

17

18 מונחים: רצפים הומולגיים, פראלוגיים, אורטולוגיים, רצפים דומים.
Homologous, Paralogous, orthologous ,similar , רצפים הומולוגיים הם רצפים שהתפתחו מרצף אב קדמון משותף. רצפים אורטלוגיים – רצפים ביצורים שונים שהתפתחו מרצף אב משותף, רצפים פרלוגיים – רצפים בתוך אותו גנום שהתפתחו כתוצאה מהעתקת גנים (gene duplication) יש להקפיד על ההבחנה בין רצפים דומים ורצפים הומולוגיים. לשני רצפים יש אב משותף או שאין להם, ולכן הם הומולוגים או שהם אינם הומולוגים, בשום מקרה הם אינם יכולים להיות "הומולוגים ב-70%". לעומת זאת, רצפים יכולים להיות דומים בדרגות דמיון שונות, למשל "דומים ב-70%". בדר"כ ניתן להסיק ששני רצפים הינם הומולוגים אם קיימת דרגת דימיון גבוהה ביניהם.

19 עד עכשיו עסקנו במרחק בין שני רצפים וחיפשנו את המרחק המינימלי
למעשה מקובל יותר בתוכנות הביו-אינפורמטיות לדבר על דמיון בין רצפים ולחפש את המקסימום. שיטת העבודה של התיכנות הדינמי דומה מאד: אבל יש לשנות את פרטי האתחול ערכי מילוי המטריצה לעבוד על מקסימום ולא מינימום

20 איתחול: - מילוי: שורה ועמודה של אפסים
מקסימום על ערכים משלושת התאים הקודמים כאשר W הוא הקנס על הוספה/הורדה: במקרה שלנו 0 ן si,j הוא הניקוד של התאמת האות במקום ה I במחרוזת האחת לאות במקום ה J במחרוזת השניה. במקרה שלנו קנס של 0 אם האותיות שונות ופרס של 1 אם הן זהות.

21

22 בכל תא יש לשמור את המצביע(ים) שהביאו לחישוב הערך באותו תא.
כך ניתן בסיום החישוב לשחזר את המסלול ולבנות את ההתאמה. G A A T T C A G T T A | | | | | | G G A _ T C _ G _ _ A

23 ניתן לשנות את פונקצית המחיר:
W = -2 הוספה/הורדה si,j= כאשר האותיות דומות si,j= כאשר האותיות שונות

24 הערך המספרי יצא כמובן שונה אבל ההתאמה שנוצרה זהה.
כאשר ההתאמה זהה בפונקציות התאמה שונות, מתחזקת ההנחה שמדובר בהתאמה אמיתית. G A A T T C A G T T A | | | | | | G G A _ T C _ G _ _ A

25 זמני ריצה וגודל זכרון נדרש
צריך למלא מטריצה בגודל n*m ( כאשר n,mאורך הרצפים) נניח שהרצפים באותו אורך ונקבל גודל ריבועי ( של n2 ) זמן: השוואה של שלושה ערכים לכל תא כלומר 3* n2 שימו לב: אם האורך גדל פי שנים הזמן גדל פי ארבע ! עבור השוואה בודדת אין כאן מגבלה, עבור השוואה של גן מול כל מאגר הנתונים בהחלט יש. שיפורים: זכרון: אין צורך לזכור את כל המטריצה, מספיקות שתי שורות מתחלפות, צריך לדאוג לחישוב מחדש של המצביעים אחורה. זמן: אם מוכנים להסתפק בתשובה מספרית כאשר המחרוזות דומות, ותשובה שלילית כללית כאשר הם אינן, ניתן לחשב רק ערכים ב "צינור " יחסית צר מסביב לאלכסון ולחסוך בזמן.

26

27 מציאת האזור המתאים ביותר בין שני רצפים.
התאמה לוקלית: מציאת האזור המתאים ביותר בין שני רצפים. שוב אותה פונקצית התאמה W = -2 הוספה/הורדה si,j= כאשר האותיות דומות si,j= כאשר האותיות שונות השינויים: בשלב איתחול המטריצה הקנס בשורת ועמודת ה אפס לא מצטבר והערך המוכנס שווה ל 0. בשלב המילוי נדרוש שהציון המצטבר על ההתאמה, בכל שלב, לא ירד מתחת לאפס. אם הציון בתא מסויים יורד מתחת לאפס מאפסים אותו. את השיחזור לאחור מתחילים בתא בעל הערך הגבוה ביותר בכל המטריצה ומשחזרים לאחור עד שמגיעים לתא שערכו 0. את המסלול מציגים כהתאמה לפי החוקים שפרטנו. GAATTCAGTTA | || | GGATCGA

28 ניקוד משתנה בהתאם לסוג ההתאמה קנס משתנה בהתאם לאורך ההוספה / הכנסה
הרחבות למודל הבסיסי ניקוד משתנה בהתאם לסוג ההתאמה קנס משתנה בהתאם לאורך ההוספה / הכנסה affine gap penalty ההרחבות תקפות הן להתאמה גלובלית והן להתאמה לוקלית ניתן באותו זמן ריצה (פחות או יותר) לחשב את ההתאמה גם תחת ההרחבות האלו. אבל האלגוריתמים הופכים ליותר מסובכים ולא ניכנס אליהם בקורס זה.

29 Transversions - סוג של מוטציות שבהן פורין מוחלף לפירימידין ולהיפך.
שיטת הניקוד שהשתמשנו בה עד כה אינה מתחשבת בסוגים השונים של אי-התאמות שיכולים לנבוע מסוגים שונים של מוטציות. ב-DNA למשל נמצא ש-Transitions מתרחשים בתדירות גבוהה בהרבה מ-Transversions. (Transitions - סוג של מוטציות שבהן בסיס מסוג מסויים מוחלף בבסיס אחר מאותו סוג למשל פורין המוחלף בפורין אחר, או פירימידין בפירימידין אחר. כלומר קיים שימור של המבנה הטבעתי של הבסיס. Transversions - סוג של מוטציות שבהן פורין מוחלף לפירימידין ולהיפך. (פורין: Adenine, Guanine פירימידין Cytosine, Thymine ) בחלבונים, המצב מורכב יותר מאחר ויש תת קבוצות רבות יותר של חומצות אמיניות: ארומטיות, אליפטיות, בעלות מטען חיובי, בעלות מטען שלילי, הידרופוביות, הידרופיליות וכו' והסיכוי והמשמעות של המוטציות שונות יכולה להיות שונה מאד. נחפש ניקוד שישקף את רמת "הדימיון" בין האלמנטים המוחלפים.

30 מחיר משתנה להכנסת רווחים (AFFINE GAP PANALTY)
GATCAACTAG GATCAACTAG ||| | | || ||||| || GA-G-A-TAG GA---ACTAG עד כה שתי ההתאמות קיבלו קנס זהה על פתיחת רווחים. ביולוגית לא נכון לעשות כך מאחר שאיבוד חלק מרצף הוא ארוע נדיר אבל כאשר הוא קורה יתכן שתורד יותר מאשר אות אחת. ולכן ההתאמה בצד שמאל סבירה יותר מאשר ההתאמה בצד ימין. כדי שהפונקציה תשקף מציאות ביולוגית זו ניתן לחלק את הקנס הניתן על החסרה לשני חלקים. ניקוד מסויים ניתן על עצם פתיחת הרווח וערך אחר ניתן לכל רווח נוסף. נוכל להגדיר את הקנס באופן הבא: w=p+nk כאשר p הוא הקנס על עצם פתיחת הרווח k הוא הקנס על כל החסרה n הוא מספר הרווחים אם נקבע p=3 ו k=1 נקבל בצד שמאל 3 +3 = 6 ואילו בימין =12


Download ppt "השוואת רצפים."

Similar presentations


Ads by Google