Network-based data integration reveals extensive post-transcriptional regulation of human tissue-specific metabolism Tomer Shlomi*, Moran Cabili*, Markus J. Herrgard, Bernhard Q Palsson and Eytan Ruppin * These authors contributed equally to this work העבודה מציגה גישה חישובית לאנליזה של מודל מטבולי הומני כדי ללמוד על התנהגות מטבולית ספציפית לרקמה באדם מציגה עבודה משותפת של תומר איתן ושלי בשיתוף עם מרקוס הרגרד מהקב' של ברנרד פאלסון ב UCSD
Metabolism Metabolism is the totality of all the chemical reactions that operate in a living organism. Catabolic reactions Breakdown and produce energy Anabolic reactions Use energy and build up essential cell components רק רגע לפני שמתחילים נגדיר מהו מטבוליזם ולמה הוא חשוב: -מכלול התהליכים הכימיים המתרחשים בתא. -הבסיס לקיום של התא והשרדתו בתנאי הסביבה. חילוף החומרים שלנו- או בעצם התהליכים הקאטבלים המפרקים חומרים מהסביבה , והתהליכים האנאבולים הבונים מולקלות חיוניות לתא ומפיקים אנרגיה
Why Study Human Metabolism? In born errors of metabolism cause acute symptoms and even death on early age Metabolic diseases (obesity, diabetics) are major sources of morbidity and mortality. Metabolic enzymes and their regulators gradually becoming viable drug targets למה למוד מטבוליזם באדם? בגלל מחלות בעיקר: 1. In born error of metabolism הן מחלות מטבלויות מולדות הנגרמות בד"כ מפגיעה בפעילות אנזים מטבולי בעלות סימפטומים קשים ואף יכולות לגרום למוות בגיל מוקדם. 2. מחלות מטבוליות שכיחות אחרות הן obesity וסוכרת הנגרמת בעקבותיה והם נחשבות לאחד מהגורמים העיקרים לתחלואה ומוות בארה"ב. 3.הצורך ללמוד על תהליכים מטבולים נובע מכך שהשיטות העקרייות לטיפול במחלות מטבוליות ( מלבד טיפול פסיכולוגי וספורט במקרה של obesity) היא targeting של אינזימים מטבולים שידועים כשותפים בתהליך המטבולי הפגוע או בתהליכים שברצוננו למנוע מבעדם לפעול. לדוגמא כשיטה לטיפול ב obesity נפגע בפעולתו של הטרנספורטר שאחראי על הספיגה של שומנים ממערכת העיכול ובכך ננסה לעצור את תהליך ההשמנה.
Modeling Cellular Metabolism A Short Review Metabolic flux : The production or elimination of a quantity of metabolite per mass of organ or organism over a specific time frame לפני שאני אתאר את השיטה שלנו ומחקרים שקדמו לו אתאר את שיטת המידול עליה אנו מתבססים הנקראת CBM שהשתמשו בה בעיקר על מנת ללמוד התנהגות מטבולית במיקרואורגניזמים. אתחיל קודם כל ב גישות הכלליות למידול מטבוליזם בתא: ברמה הטופולוגית ניתן לתאר את הרשת המטבולית כגרף כאשר קדקוד = מטבוליט קשת = ראקציה שבד"כ מקוטלזת ע"י אינזים שהם חלבונים אציין מושג נוסף שמעניין אותנו והוא השטף: שטף מטבולי – כמות החומר שזורמת על כל קשת ברשת המטבולית= כמה חומר נצרך או נוצר דרך ראקציה זו ביח' זמן. השטף הוא המעניין מאחר והוא האלמנט שמתרגם את הגנוטיפ ותנאי הסביבה לפנוטיפ. שיטות מקובלות לתאור הפעולה של רשתות מטבוליות היא תאור בעזרת מודל קינטי – מודל כזה המשתמש במשוואות דפרנציאליות לתאור שינויים בריכוזי המטבוליטים אך הוא דורש מידע מודם לתאור קבועים קינטים- המידע חסר לגבי רוב הראקציות ולכן בפועל קשה להשתמש במודל זה לתאר נערכות מורכבות. Metabolite Reaction catalyzed by an enzyme “..it is the concept of metabolic flux that is crucial in the translation of genotype and environmental factors into phenotype or a threshold for disease.” Brendan Lee Nature 2006
Constraint Based Modeling Find a steady-state flux distribution through all biochemical reactions Under the constraints: Mass balance: metabolite production and consumption rates are equal Thermodynamic: irreversibility of reactions Enzymatic capacity: bounds on enzyme rates Successfully predicts: שיטת המידול שאנחנו מתבססים עליה נקראת CBM : היתרון העיקרי שלה הוא שהיא -מסוגלת לתאר מערכות רחבות היקף -ומצד שני היא מסוגלת לספק מידע מסויים על התנהגות הרשת מבלי להזדקק למידע רחב הנוגע לכל מרכיבי הרשת. מה מספקת שיטת מידול זו היא נותנת תמונה של ערכי השטפים במערכת ב steady state תחת סט של אילוצים במצב steady state האורגניזם מקבל מהסביבה חומר בקצב קבוע ומה שכביכול מהמערכת יוצא הוא הרכב החומרים הדרושים לגידול הביומסה של הייצור.. כאשר ההנחה היא שלא מצטבר חומר במערכת: שקצב הייצור של כל מטבוליט שווה לקצב צריכתו . כאשר האילוצים הם: שימור מסה – אנו מניחים הנחה שקצב הייצור של כל מטבוליט שווה לקצב צריכתו כך שאין הצטברות של חומר במערכת. אילוצים תרמודינמים – ראקציות פועלות בכיוון רצוי כאשר יש ראקציות שיודעות לפעול בשני הכיוונים וכאלו שפועלות בכיוון אחד בלבד. קיבולת של אנזים- לאנזים כמו לכל פועל טוב יש קצב עבודה מקסימלי- כלומר הוא מוגבל במספר המטבוליטים שהוא יכול לעבד ביחדת זמן constant
Thermodynamic & capacity Constraint Based Modeling (CBM) Mathematical Representation of Constrains Stoichiometric matrix – network topology with stoichiometry of biochemical reactions reactions Glucokinase Glucose -1 ATP -1 G-6-P +1 ADP +1 Glucose + ATP Glucokinase Glucose-6-Phosphate + ADP metabolites Mass balance S·v = 0 Subspace of R Thermodynamic & capacity 10 >vi > 0 Bounded convex cone Optimization Maximize Vgrowth n growth תאור הרשת הטופולגית והאילוצים שהזכרתי מתוארים בצורה מתמטית באופן הבא : הנעלמים שלנו הם השטפים. אנו מגדירים עליהם סט של אילוצים לינארים המגדירים מרחב פתרונות. S המטריצה הסטויכיומטרית באה לתאר את הקשר בין המטבוליטים על פני כל שטף. לדוגמא: הנחת ה steady state שקובעת שאין הצטברות חומר במערכת מגולמת במשוואה SV=0 (כלומר כל חומר שנוצא ע"י שטף נצרך ע"י שטפים אחרים) האילוצים התרמודינמים וה capacity מבוטאים ע"י חסמים עליונים ותחתונים על כל שטף. נשים לב שכל שאנו מוסיפים למודל יותר אילוצים, מרחב הפתרונות לסט שטפים המקיים את האילוצים הולך וקטן. ובסה"כ מטרתנו היא להוסיף כמה שיותר אילוצים כדי להתחקות על מרחב שטפים כמה שיותר דומה למציאות. כדי למצוא פתרון בתוך המרחב ניתן להשתמש באלגוריתם תכנות לינארי שמטרתו היא בדיוק מציאת נקודה במרחב תחת סט אילוצים לינארים. אלגוריתם זה מוצא פתרון פיזיבלי במרחב תחת הנחת אופטימזציה מסויימת. מחקרים רבים למדו בעזרת CBM התנהגות של מיקרו אורגניזמים תחת ההנחה שהאורגניזם ממקסם את קצב הגידול שלו כלומר ממקסמים את ערך השטף בראקציה המדמה את קצב גידול הפרט. מחקרים אלו הראו תוצאות דומות למציאות. Fell, et al (1986), Varma and Palsson (1993)
Human Metabolic Models Motivated by the fact that in-vivo studies of tissue-specific metabolic functions are limited in scope Individual genes and pathways (KEGG, HumanCyc) Detailed description of the genes, reactions, enzymes No connections between pathways Specific cell-types and organelles Red blood cell Wiback et al. 2002 Mitochondria Vo et al. 2004 Large-Scale Human Metabolic Networks The first large-scale model of human metabolism ~2000 genes, ~3700 reactions, 7 organelles (Duarte et al. 2007, Ma et al. 2007) עד כאן התאור של constraint based modeling. כעת אסקור את המאמץ שנעשה עד היום לתאור מודלים מטבולים בhuman. המוטיבציה ליצירת מודלים חישובים כדי ללמוד התנהגות מטבולית באדם היא הקושי הגדול בגידול תרביות של סוגים שונים של תאים הומנים במעבדה. 1. התאור הבסיסי ביותר שקיים הם מודלים טופולוגים של רשת: KEGG ו HumanCyc הם DB המנסים לתת תאור מלא של המסלולים המטבולים באדם הכולל שמות ראקצית גנים , אינזימים וספרות מתאימה. עם זאת המסלולים המטבולים המוצגים ע"י DB אלו נפרדים ואינם מאוגדים לרשת אחת שלמה וקימים "חורים" פערים רבים בידע לגבי כיצד הם מקושרים. בנוסף תאור המסלולים הוא כללי ואינו ספציפי לרקמה 2. CBM ומודלים קינטים - קיימים גם מודלים המתארים את ההתנהגות המטבולית של תא או אורגנלה ספציפית כגון מודל המתאר את כדורית הדם האדומה- קיים גם מודל CBM וגם מודלים קינטי( פאלסון שנה 2202 – 32 ראקציות ו 39 מטבוליטים): מודל פשוט מאוד כי פעילות מטבולית מצומצמת מאוד – תא דם בוגר מאבד אורגנלות רבות כגון המיטוכנדריה והגרעין ומקיים פעילות מטבולית המבוססת על גליקוליזה ותסיסה ליצור אנרגיה. אם מתייחסים למערכות יותר גדולות קיים מודל CBM של המיטוכנדריה של הלב ב human – שהיא האורגנלה המייצרת את ה ATP בתא. (מודל CBM הכולל 189 (פאלסון 2004-2005)ראקציות המתארות התנהגות מטבולית במיטוכונדריה. עשו עליו סימולציות של מצבים מטבולים שונים המתארים סוכרת ודיאטות שונות ולמדו מאפיינים כללים של התנהגות מטבולית במיטוכנדריה.) 3. פריצת הדרך הגדולה ומבטיחה היא פרסום של רשת מטבולית מקיפה המתארת התנהגות מטבולית בתא של אדם. מודל ה CBM ההומני התפרסם בתחילת 2007 והוא כולל 3700 ראקציות ו2000 גנים על פני 7 אורגנלות שונות. התרומה העיקרית שלו היא שהוא עושה איטגרציה לכל המסלולים שכבר ידועים פי kegg עם יותר מ1500 מקורות ספרות ומתאר את החוליות המחברות בין המסלולים ברשת. שימו לב שהרשת הנ"ל תוארה בצורת מודל CBM הכולל את מטריצה S ווקטורי החסמים על השטפים אלפא וביטא.
CBM in Human Modeling human tissue function is problematic Various cell-types activate different pathways (shown in Expression studies) Hard to formulate cellular metabolic objectives – (like biomass maximization for microbial species) Unknown inputs and outputs of each cell-type הקבוצה של פאלסון הציגה אנליזה של התנהגות מטבולית של שריר לפני ואחרי ניתוח מסויים אך אנליזה זו היתה מאוד מצומצמת כעת נסביר מה הבעיות בשימוש במודל הכללי של הרשת המטבולית באדם כדי ללמוד על התנהגות מטבולית בתאים הומניים. ראשית, ישנו מגוון רב של תאים ורקמות אשר לכל אחד פעילות מטבולית שונה– תאים שונים מפעילים מסלולים שונים (הנ"ל הראו בexpression studies לדוגמא) . שנית , כאשר משתמשים ב CBM לחקור מיקרואורגניזמים מגדירים פנק אופטמזציה לדוגמא מקסום קצב גידול. לעומת זאת אצל מולטי סלולאר לא ניתן להניח הנחה לגבי מהי פנקציית האופטימיזציה של התא 3., איננו יודעים מהם החומרים הנכנסים והמופרשים מכל תא כך שקשה לנו לדמות את תנאי הסביבה אליהם חשוף התא. מכאן שכדי ללמוד על התנהגות מטבולית של תא הומני יש להוסיף מידע נוסף אילוצים נוספים המתארים את התכונות הספצפיות לו. השאלה הנשאלת היא האם אנו יכולים להשתמש בCBM כדי לחזות התנהגות מטבולית הספציפית לתאים שונים של אדם. Can we use constraint-based modeling to systematically predict tissue-specific metabolic behavior?
Our Objective : Our Method : General approach to study tissue specific metabolic models 2. Tissue specific activity of metabolic genes/reactions Our Method : Model Integration with Tissue-Specific Gene and Protein Expression Data אז במה העבודה עוסקת: שתי מטרות : 1.להציג גישה כללית ללמוד התנהגות מטבולית ספציפית לרקמה באדם ע"י שימוש ב שיטת מידול CBM 2. לתאר מיהם הגנים והראקציות המטבולים שפעילים בצורה ספציפית ברקמה מסויימת. Motivated by the assertion that highly expressed genes in a certain tissue are likely to be active there
Our Method Gene expression data Protein measurements data 1 Gene expression data Protein measurements data Highly and Lowly expressed gene sets Gene-to-reaction mapping 2 Human Metabolic Model (Duarte et. al) Highly and Lowly expressed reaction sets 3 New objective function: Maximize consistency with expression data. Use Mixed Integer Linear Programming (MILP) טוב , אז סוף סוף הגעתי לשיטה שלנו – הרעיון הוא להשתמש בשיטת ה constraint based modeling על המודל ההומני של Duarte et al ולהוסיף אילוצים נוספים הנגזרים מ EXP DATA של הרקמה ההומנית שמעניינת אותנו. מה עושים ? בוחרים רקמה, אנחנו ספציפית הסתכלנו על קבוצה של 10 רקמות מוציאים בהסתמך על מקורות חיצוניים את קבוצת האנזימים שרמת הביטוי שלהם וריכוז החלבון שלהם היה גבוהה ברקמה זו יחסית לאחרות. מוצאים קבוצה מקבילה שביטוייה נמוך ברקמה זו. ע"י מיפויי גנים לראקציות ( מספר גנים יכולים לקודד ראקציה א' וראקציה ב ' יכולה לפעול רק אם תוצרי שני גנים שונים קיימים) מזהים את מצב הביטוי של כל ראקציה כעת מוסיפים משתנים בוליאנים למודל ההומני הבסיסי ואילוצים המייצגים בעזרתם את הקשר בין השטפים במודל לבין מידע ה expression – ארחיב על אילוצים אלו בשקף הבא בשלב הבא מגדירים בעיית אופטימיזציה חדשה : מצא התפלגות שטפים המקיימת את האילוצים הסטיכיומטרים, התרמודינמיים המקוריים וגם ממקסמת את מספר הראקציות שמצב השטף דרכם מתאים למצב הEXP של האינזים המפעיל אותן. לאחר זאת ניתן להפעיל שלב נוסף המזהה את קבוצת הגנים והראקציות שפעילותן ספציפית לרקמה שבה אנו עוסקים- אנו מכנים מאפיין זה flux activity state. 4 Determine activity state and conf. level for each gene/reaction
Determine Highly and Lowly Reaction sets Our Method Determine Highly and Lowly Reaction sets 1. Genes set :Extract set of enzymes whose expression is significantly increased or decreased (GeneNote, HPRD) 2. Reactions set :Employ a detailed gene-to-reaction mapping to identify a tissue-specific expression state for each reaction R1 = (g1 & g2) | g3 | g4 כפי שציינתי מוציאים את קבוצת האנזימים שרמת הביטוי שלהם וריכוז החלבון שלהם היה גבוהה ברקמה זו יחסית לאחרות. מוצאים קבוצה מקבילה שביטוייה נמוך ברקמה זו. אנחנו השתמשנו בחיתוך של אינפורמציה משני מקורות מידע שארחיב עליהם בהמשך לכל גן נתנו ערך בוליאני של 0 1 או -1 לפי היותו לא ידוע, מבוטא או לא מבוטא ברמת ה expression כעת השתמשנו במערכת משוואות של מיפויי גנים לראקציות המתארת את הקשר בין כל ראקציה לגנים בהם פעילותה תלויה( מספר גנים יכולים לקודד ראקציה א' וראקציה ב ' יכולה לפעול רק אם תוצרי שני גנים שונים קיימים) מזהים את מצב הביטוי של כל ראקציה וקובעים לכל ראקציה reaction expression state ניתן לראות בגרף שלפנינו שמספר הראקציות הלא פעילות (אדום) בד"כ גבוה ממספר הראקציות הפעילות(כחול) כאשר הכבד יוצא דופן. בסה"כ מדובר על כמה מאות ראקציות כאשר יש 3700 ראקציות במודל.
Our Method Gene expression data Protein measurements data 1 Gene expression data Protein measurements data Highly and Lowly expressed gene sets Gene-to-reaction mapping 2 Human Metabolic Model (Duarte et. al) Highly and Lowly expressed reaction sets 3 New objective function: Maximize consistency with expression data. Use Mixed Integer Linear Programming (MILP) כעת מוסיפים משתנים בוליאנים למודל ההומני הבסיסי המייצגים את הקשר בין השטפים במודל לבין מידע ה expression – ארחיב על אילוצים אלו בשקף הבא לאחר מכן מגדירים בעיית אופטימיזציה חדשה : מצא התפלגות שטפים המקיימת את האילוצים הסטיכיומטרים, התרמודינמיים המקוריים וגם ממקסמת את מספר הראקציות שמצב השטף דרכם מתאים למצב הEXP של האינזים המפעיל אותן. 4 Determine activity state and conf. level for each gene/reaction
Represent Flux Consistency with Expression State Our Method Represent Flux Consistency with Expression State Highly expressed M3 M7 Output E1 E2 H2 M4 M8 Output H1 E3 Input M1 M5 L2 E4 L1 M2 M6 H3 M9 E5 E6 E7 Lowly expressed כיצד פרמלנו את פנקציית האופטימיזציה: לקחנו את קבוצת הראקציות מהשלב הקודם ש ה expression state שלהן גבוהה או נמוך האופן משמעותי ברקמה זו. הגדרנו לכל משתנה V המתאר את השטף שנושאו ראקציות אלו משתנים בוליאנים H או L הוספנו אילוץ המחייב את Hi להיות 1 אם קיים שטף בראקציה Vi השייכת ל קב' הראקציות שהן Highly expressed בהתאמה, הוספנו אילוץ המחייב את Li להיות 1 אם אין שטף בראקציה Vi השייכת ל קב' הראקציות שהן Lowly expressed שימו לב: וקטור השטפים V הוא משתנה רציף ואילו הוקטורים H ו L הם בוליאנים. נשים לב שניתן לפרמל את שני התנאים הללו במשוואה לינארית פשוטה (שאחסוך מכם כרגע – אך אני יכולה להראו לכם אותה בסוף) כעת נשארנו עם סט אילוצים לינארים המתארים משתנים רציפים ומשתנים בוליאנים כך שנדרש להשתמש בMILP המוצא נקודה במרחב כאשר חלק מהמשתנים יכולים לקבל כל ערך בעוד האחרים יכולים להיות 0 או 1 בלבד. Y משתנה עזר שבעזרתו מפרמלים קשר בין EXP למודל Looking for real flux vector V Now add additional Boolean vectors H, L s.t : Hi=1 Vi != 0 (if the enzyme associated with Vi is Highly expressed) L i=1 Vi=0 (if the enzyme associated with Vi is Lowly expressed)
4 out of 5 reactions were consistent with the expression state! Our Method Define a New Objective function Highly expressed M3 M7 Output E1 E2 H2 M4 M8 Output H1 E3 Input M1 M5 L2 E4 L1 M2 M6 H3 M9 E5 E6 E7 Lowly expressed 4 out of 5 reactions were consistent with the expression state! כעת הגדרנו פנקציית אופטימזציה המבקשת למקסם את הסכום (Σ(Hi+Li , קרי : אנו ממקסמים את מספר הראקציות הנושאות שטף ושייכות לקבוצת ה Highly expressed וכן את מס' הראקציות שאינן נושאות שטף ושיכות לקב' Lowly expressed כעת לאחר שמפעילים את פנקציית האופטימיזציה הנ"ל על המודל מתקבלת התפלגות שטפים העונה על על כל האילוצים וממקסמת את מספר הראקציות הפועלות בהתאם ל expression state שלהם. בדוגמא הנ"ל ניתן לראות ש 4 מתוך 5 אילוצים התקיימו Use Mixed Integer Linear Programming. Define a new objective function: MAX Σ (Hi + Li ) Which practically mean maximize the number of Highly expressed reactions that are active and the number of Lowly expressed reactions that are inactive Maximize consistency with expression data
Our Method Gene expression data Protein measurements data 1 Gene expression data Protein measurements data Highly and Lowly expressed gene sets Gene-to-reaction mapping 2 Human Metabolic Model (Duarte et. al) Highly and Lowly expressed reaction sets 3 New objective function: Maximize consistency with expression data. Use Mixed Integer Linear Programming (MILP) עד כאן הצגנו שיטה כללית שתחזה לנו התנהגות מטבולית של רקמה מסוימת כעת נשים לב שהתפלגות השטפים שקבלנו היא אחת מתוך מרחב פתרונות אפשריים – לדוגמא למרות שגילינו שראקציה א פעילה יתכן פתרון אופטימלי נוסף (בו אותו מספר שטפים מסכימים עם ה expression ) שבו ראקציה א אינה פועלת. אם כך כיצד נגדיר את מצב האקטיביות של כל ראקציה? 4 Determine activity state and conf. level for each gene/reaction
Our Method Flux Activity State Gene’s flux activity states -reflect the absence/existence of non-zero flux through the enzymatic reactions they encode Comparison of the flux activity states and the expression state will teach us on post transcription regulation Lowly expressed E3 E1 E2 E5 E7 E6 M3 M9 M6 M4 M2 M7 M8 M5 M1 Highly expressed E4 Flux activity state של גן הוא פרמטר המתאר האם במצב אופיטמלי עובר שטף דרך הראקציה שאת האינזים שלה הגן מקודד בגישה נאיבית ניתן לקבוע אותו ישירות על פי האם עבר שטף במערכת או לא עבר. בהנתן שיש לנו את מצב ה expression של גן וה Flux activity state שלו אנו יכולים ללמוד משהו על תפקיד ה (PTR) post transcriptional regulation PTR היא הבקרה המשפיעה על תוצר הגן לאחר השעתוק- היא יכולה להתבטא ע"י פירוק של חלבון או השתקת רנ"א ובכך למנוע מתוצר החלבון לפעול. בקרה כזו תביא לכך שלא נזהה את ביטוי החלבון בחיתוך בין הmrna exp וה protein abundance היא יכולה גם ע"י רגולציה מטבולית – תלות קיום השטף בזמינות המטבוליטים הדרושים לראקציה מלבד הדרישה לאינזים. בדוגמא שלפנינו אנו יכולים ללמוד על תפקיד PTR E7 הוא דוגמא ל down regulation לא עובר שטף בראקציה למרות שהאינזים הנושא אותה אכן בנמצא. E3 הוא דוגמא ל up regulation למרות ש exp לא דווח על עליה בביטוי הראקציה אכן פועלת. זו בעצם התוספת שאנו מציעים על פני expression studies המנסים לסווג מיהם הנים הספתיפים לרקמה על סמך השוואה בין ניסויי exp ברקמות שונות. Up regulated Down regulated
Flux Activity State Consider Space of Possible Solutions We predict for each tissue active and inactive gene and reactions sets Since there is a space of possible solutions to the MILP problem we solve a set of MILP problems to determine the gene activity Simulate a state where the gene is inactive Simulate an active gene product ולאחר שהרחבתי לגבי מהו flux activity state ומה הוא מלמד אותנו אסביר לכם כיצד אנו קובעים אותו: החלטנו לחזות מהי קבוצה קבוצת הגנים והראקציות הפעילים בכל רקמה ומהם אלו שאינם פעילים. אופן הקביעה נעשה באפון הבא: הרצנו על כל גן וכל ראקציה במודל את זוג הריצות הבאות: -הרצה אחת בה חייבנו את כל הראקציות התלויות לחלוטין בגן הנ"ל לא לשאת שטף- בכך דימינו מצב בו הגן אינו פעיל ברקמה. ערך האופטימיזציה הנ"ל מכונה X אזכיר שערך האופטימזציה משמעותו מספר הראקציות שמצב השטף דרכן הוא קונסיסטנטי עם הexpression state -סדרת הרצות בהן בכל פעם חייבנו ראקציה אחת התלוייה בגן הנ"ל לפעול (על כל השאר לא הפעלנו אילוצים). בצורה זו דימינו מצב בו הגן פעיל ברקמה. ערך האופטימיזציה המקסמלי בין כל ההרצות הנ"ל מכונה Y חשבנו הפרש בין X ל Y וקבענו האם הגן אקטיבי, לא אקטיבי או undetermined ברקמה זו. (i) Constrain all reactions associated with the gene studied to zero (based on the gene-to-reaction mapping discussed above) and use the above MILP formulation to find the maximal correspondence between reaction activities and their expression states (denoting this maximal correspondence x). (ii) Solve a series of MILP problems to find the maximal correspondence with the expression state when each of the reactions associated with the gene are activated (either with a positive or negative flux) in turn (denoting this maximal correspondence over all runs y). A gene is then defined to be active in this tissue if x<y with a confidence of y-x, inactive if x>y with a confidence of x-y, or undetermined if x=y. Estimate confidence levels based on the drop in the consistency (with expression) between the 2 different solutions!
Results Gene Tissue Specific Activity We employed the method described above on metabolic network model of Duarte et al. gene and protein expression measurements from GeneNote and HPRD 10 tissues : brain, heart, kidney, liver, lung, pancreas, prostate, spleen, skeletal muscle and thymus. The activity state of 781 out of 1475 model genes was determined in at least one tissue הפעלנו את השיטה שתיארתי על המודל ההומני של פאלסון וdata של expression מ geneNote ו HPRD GeneNote הוא חלק מהdb genecard של וויצמן המחזיק תאור נרחב מאוד על כל ה גנים ב human . geneNote מספק בעיקר exp data של כל גן הומני ואף מציע לכל גן הומני וקטור בינארי המתאר את הספצפיות שלו לרקמה ע"י ניסויי השוואה שעשה בין 12 רקמות שונות. HPRD הוא database המספק לכל רקמה רשימה של תוצרי חלבונים שנמצאו בניסויים אקספרמנטליים (מדדו תוצר חלבון) ברקמה. רשימה זו הוצאה מהספרות ועברו עליה אנשים (ולא רק מערכות אוטומטיות). הסתכלנו על 10 מתוך 12 הרקמות כי על השתיים הנותרות המידע היה דל מאוד. התוצאות הראו של 781 גנים (תעתיקים) מתוך 1475 נקבע activity state ברקמה אחת לפחות.
Post-transcriptional Regulation of Metabolic Genes Post-transcriptional regulation plays a major role in shaping tissue-specific metabolic behavior: ~20% of the metabolic genes per tissue average of 42 (3.6%) genes post-transcriptionally up-regulated and 180 (15.4%) post-transcriptionally down-regulated in each tissue down-regulated כעת ניסנו ללמוד מהו הערך המוסף של השיטה שלנו על פני המידע שמספק הexpression על הרקמות השונות ושמחנו לגלות שאכן קים ערך מוסף. אחד הדברים המענינים שגילינו הוא שpost transcriptional regulation משחקת תפקיד חשוב בהתנהגות הגנים : בממוצע על פני כל הרקמות 3.6% מהגנים שלא זוהו כבעלי exp גבוה אכן פועלים- הנ"ל מסמל על up regulation מספר גבוהה יותר 15.4% התגלו כ down regulated : למרות שהיה להם exp גבוה הם התגלו כלא אקטיבים. בסה"כ אנו מזהים פעילות גבוה של post transcriptional על בערך 20% מהגנים. Up-regulated מה שרואים בגרף השמאלי : בשחור אחוז (fraction) הגנים שהם אקטיבים וexp ובלבן אחוז אלו שמבוטאים נמוך underexpאו לא ידוע אך אקטיבים בפועל. ובגרף הימני : בשחור lowly וinactive . בלבן highly exp but inactive up-regulated
Cross Validation Test We performed a five-fold cross validation test 80% of the genes were used to constrain the model Gene activity states for a held-out set of 20% of the genes were predicted according to the expression constrains of the remaining other 80% The overlap between the genes predicted as active and the highly expressed genes in the held-out data was significantly high for all tissues ועכשיו אחרי שנתתי תאור של השיטה ותוצאה מעניינת שלמדנו ממנה – אנסה לשכנע אותכם שהשיטה עובדת ואתאר לכם את הואלידציות השונות שעשינו לשיטה: 5 fold cv בכל סבב הוצאנו 20% מהגנים. הגדרנו אילוצים על המערכת לפי מצב ה expression של 80% הגנים הנותרים. כעת הפעלנו את שלב4 – תחזית ה activity state על קבוצת 20% הגנים שנשארו בחוץ. תחת ההנחה הבסיסית שגן המבוטא גבוהה הוא בסבירות גבוהה אכן פעיל מצאנו כי הצלחנו לחזות בצורה סיגניפיקנטית את פעילותם של גנים שרמת ה expression שלהם גבוה אל אף שלא כללנו נתון זה באילוצים. הנ"ל מצביע על חוזק השיטה. לא להזכיר אבל לדעת לענות: התוצאות לא יצאו סגניפקנטיות כאשר חפשנו העשרה של inactive ו underexpressed . אחת הסיבות לזה יכולה להיות כמות ה down regulation הגבוהה יחסית שזיהינו קודם לכן כלומר מראש אין התאמה מאוד משמעותית . העובדה שרמת ה up regulation הרבה יותר קטנה בהשוואה ל down יכולה לרמוז לנו שיש לנו יותר סיבה לצפות לסגניפיקנטיות כאשר מסתכלים על העשרה בגנים ה active על פי ה CV ביחס להעשרה על גנים inactive ב cv. חישוב העשרה היפרגאומטרי מה הסיכוי למצוא כזה מספר של exp +act בקבוצת גנים בגודל N שכלולים בה m גנים overexp לא קבלנו תוצאות כלכך חזקות על underexp המהווים קבוצה גדולה הרבה יותר : מה אנחנו רוצים לענות כאן – רודד בטוח ישאל על הנ"ל. להכניס שקף אקסטרא על כמות ה exp שידוע לכל גן.
Large Scale Validation Large-Scale Mining of Tissue-Specificity Data Tissue-specificity of genes, reactions, and metabolites is significantly correlated with all data sources Tissue specificity of post-transcriptional up regulated elements is significantly high !!!! Tissue specificity of post-transcriptional down regulated elements is significantly low !!!! כדי להעריך את טיב השיטה בדקנו האם קבוצות הגנים שחזינו להם flux activity state חיובי ברקמה מסויימת אכן ידועים כספציפים לרקמה זו לפי מקורות שונים. את הבדיקה עשינו במספר רמות : גנים , ראקציות , מטבוליטים ( שהספציפיות שלהם נקבעה לפי יחס or בין מכלול הראקציות שצורכות או מייצרות אותן), מטבוליטים שנספגים או מופרשים מהתא (ע"י actvity score של ראקציות פיקטיביות שקובעות האם החומר הנ"ל יהיה חשוף לסביבה יורחב בהמשך) וגנים שהם טרנספורטרים. בהנחת a hyper-geometric distribution of random tissue-association בדקנו האם יש העשרה של מספר הקישורים שחזינו נכון מתוך קישורי גן/ראקציה/מטבוליט שדווחו ע"י הDB . כפי שניתן לראות כל הבדיקות הללו יצאו סיגניפקנטיות. הקבוצות שבדקנו בתוכן העשרה היו בסדר גודל של מאות: כאשר הסתכלנו על הקבוצה שהיא אקטיבית ו up regulated , כלומר המודל חזה לה activity חיובי בעוד הexp לא היה גבוה : ראינו כי עדיין קבוצה זו מועשרת בגנים (או ראקצ'/מטבוליט) שדווחו כקשורי לרקמה -> הנ"ל תומך בכך שהערך המוסף שמספקת השיטה שלנו בזיהוי גנים שהם up regulated הוא אכן אמין! הבדיקה הבאה שעשינו היא לראות האם הקבוצה שזוהתה כ down regulated אינה מועשרת בגנים/ראק/מטב שדווחו כקשורים לרקמה על פי הDB הנ"ל: כלומר בהנחת מודל היפר גאומטרי על קבוצת הקישורים גן/מט/ראק/ - רקמה ההסתברות לבחור קבוצה בגודל של קבוצת ה down regulated שיהיו בה פחות קשרים מאלו שאנו חזינו היא נמוכה מאוד -> כמות הקשרים בין גן לרקמה בקבוצה שזוהתה כ down regulated היא נמוכה בצורה סיגניפיקנטית. לעצמי: חישוב web ע"י שימוש ב Query Google both the gene and the tissue names in the title, using the “allintitle:” Google search command (לעצמי: החישוב - מחשבים pval כאילו מחפשים העשרה בקבוצה ועושים 1 פחות; זה כמו לשאול את השאלה המשלימה: מה הסיכוי לקבל קבוצה רנדומית בגודל הנ"ל שיש לה פחות קשרים ממה שרואים אצלנו= 1 פחות הסיכוי לבחור קבוצה רנדומית בגודל הנ"ל שיש בה מספר קשרים כשלנו או גבוה יותר) עמודת האחוז מציינת מה גודל הקבוצה שהיא up regulated מתוך כל הקבוצה שה DB דיווח עבורה . האחוז הוא של מספר תחזיותupregulated על פני כל המטריצה (על פני כל הגנים וכל הרקמות) .ובעצם נותן ערך ממוצע של מספר הגנים שהם upregulated בתת הקבוצה הנבדקת בכל רקמה. יש לציין שהוא ערך ממוצע כאשר ברקמות מסויימות יש המספר הרבה יותר גבוהה. לעצמי מס גנים כללי 1167 ראקציות2467 מטבוליטים 1587 HMDB מטבוליטים 621 ברנדה ראקציות 902 DB המתאר אינזימים חומר נאסף ידנית ע"י מדען ועובר בדיקה אוטומטית Web 487 OMIM 162 HMTD and TCDB 136 Exchange Metabolites 100
Tissue-Specific Metabolite Exchange with Biofluids 249 metabolites are known to be secreted or taken up by human tissues 54% of the metabolites are not associated with transporters and cannot be predicted by expression data Transport direction can not be inferred by the expression data A transporter might carry several metabolites Many of the known transporters are post-transcriptionall regulated נתתנו תחזיות ל 249 המטבוליטים וקבענו לכל אחד מה ניקוד האקטיביות שלו ומה כיוון הזרימה – במידה וניתן לקבוע. בנוסף אימתנו את התחזיות שלנו ע"י שני סוגים של ואלידציה: בדקנו העשרה (כפי שראינו בטבלה קודם לכן) של המטבוליטים הספיציפים לרקמה לפי מידע אסוציאציה בין רקמה ומטבוליט שקיים ב HMDB בנוסף בדקנו העשרה של הטרנספורטרים האקטיבים ברקמה על סמך מידע על קישור בין טרנספורטר לרקמה בשני DB: HMTD (רשימה שנאספה ידנית מהספרות) ו TCDB (כיצד נאסף) P valהיפר גאומטרי סיגניפקנטי e-3 בשתי הבדיקות . בתמונה: לשם פשטות אנו מסתכלים על מטבוליטים על ספציפים ללא יותר מ 3 רקמות. עיגול= מטבוליט, מסגרת מלאה= יש טרנספורטר , חץ מכוון = מצביע על ספיגה או הפרשה של המטבוליט מהרקמה. חץ כחול= גם הexpression חזה קישור זה. חץ אדום= תחזיות שלא מתקבלות על סמך /expression סה"כ ניתן לראות שיש חצים אדומים רבים- כלומר מספר ניכר של פרדקציות חדשות שאנו נותנים. בין הפרדקציות שנתנו יש גם כאלו שקשורות ב post-transcriptional regulation לדוגמא האוראה והכבד שלא דווח exp גובה של הטרנספורטרים אך כן נחזתה אקטיביות לראקצית ה exchange . (תומר שאלה- בטבלה SUPP נקבע כי אוראה נכנסת לכבד לפי ציון 1- with y<0 denoting uptake: : זה נכון? כי אם כן יש פה בעיה קטנה להזכיר הנ"ל) Bile acid קסנו דאוקסי גליקו כולאט שמיוצר ע"י הכבד ומופרש ממנו זוהה ע"י הפרדקציות שלנו למרות שאין לא טרנספורטר ממברנלי. אלו הן דוגמאות ספציפיות לערך המוסף של השיטה.
Metabolic Disease-Causing Genes 162 metabolic genes are associated with a mendelian disease Prediction accuracy: precision of 49% and a recall of 22% There is a significant affect of post transcriptional regulation on disease-causing genes GBE1 causes the glycogen storage disease is post-transcriptionally up-regulated in liver, heart, skeletal muscle, and brain) בשלב הבא התמקדנו ב 162 גנים מטבולים הקשורים למחלות מנדליות לפי OMIM DB . ע"י text mining של הטקסט המקושר לכל כניסה ב omim יצרנו לכל מחלה רשימה הכוללת את כל הרקמות הקשורות אליה. בשלב הבא ע"י אסוציאציות בין כל גן למחלות שאותן הוא גורם יצרנו לכל גן רשימת רקמות ספצפיות שהוא ידוע כבעל השפעה ספציפית עליהן על סמך OMIM. על פני 162 גנים אלו מצאנו 164 קישורים בין גן לרקמה לפי מדד האקטיביות שהגדרנו באנליזה שלנו. מידע ה expression תאר 91 קישורים כאשר החפיפה בין הקבוצות :OMIM,ACT,EXP היא חלקית. פרדקציות האקטיביות הספציפית של גנים הגורמים למחלות נמצאה סיגניפיקנטית עם precision of 49% and a recall of 22% מספרים דומים התקבלו בפרדקציות הexpression . חשוב לציין שהרבה מהפרדקציות של הactivity אינן חופפות לפרדקציות ה expression ויש קבוצה גבוה שהיא post transcriptionaly up regulated על סמך התחזיות שלנו. כאשר מתמקדים בקבוצה שהיא up regulated post transcriptiohonal (כחול ולא ירוק)מוצאים 129 פרדקציות חדשות שמספר הפרדקציות המואמתות מתוכן הוא סיגניפיקנטי .e-12 םם נתייחס לדוגמא ספציפית של post transcriptional regulation אז מצאנו שהגן GBE1 הוא אקטיבי בכבד הלב השריר והמוח. גן זה ידוע כגורם למחלת glycogen storage disease שיש בעיה באחסון גליקוגן שהוא "מחסן " לאספקת גלוקוז ברקמות שזקוקות לאספקת אנרגיה מיידית בפעילות מאומצת. הרקמות שחזינו את פעילות האנזים בהן עם conf level גבוה הן הנפגעות העיקריות במחלה זו . מה שאנו רואים בטבלה היא תת רשימה של גנים הגורמים למחלות ומי זיהה אותן: בשורות מצוינות המחלות, בעמודות הרקמות. X מסמן שOMIM דווח על הקישור. אפור מסמן על אקטיביות ו exp , אדום על post transcription up regulated וירוק על down regulated . ניתן לראות חפיפה גבוהה בין אפור או אדום ו X מה שמסמן על כך השיטה זהתה גנים רבים הגורמים למחלות כאקטיבים ברקמה הרלוונטית למחלה.
Summary Methodological Standpoint First constraint-based modeling analysis of recently published human metabolic networks First to account for post-transcriptional regulation within the computational framework of large-scale metabolic modeling Integrate expression data as part of the optimization instead of imposing it as a constrain during the preprocessing step (Akesson et al. 2004) לסיכום- -אז העבודה של פאלסון והעבודה הזו בעקבותיה נותנים בסיס ללמוד התנהגות מטבלית ספציפית באדם. -הייחוד בעבודה הזו היא בגישה של לעשות אינטגרציה של ה data החיצוני כחלק מהאופטימזציה במקום להקצות אילוצים מוקדמים – גישה מוקדמת יותר שילבה exp ע"י שאילצה (קבעה שטף לאפס) ראקציות שה exp של האינזים שלהם נמוך – לא לפעול. אנחנו בעצם נותנים אפשרות לשלבי בקרה נוספים לבוא לידי ביטויי. - ספציפית באנליזה שלנו גילינו את המשחק החשוב שי ל post transcriptional regulation בעיצוב ההתנהגות המטבולית הספציפית באדם.
Summary Main Conclusions Post transcriptional regulation plays a significant rule in shaping tissue specific metabolic behavior The tissue specificity of many metabolic disease-causing genes goes markedly beyond that manifested in their expression level, giving rise to new predictions concerning their involvement in different tissues Metabolites exchange with biofluids displays a large variance across tissues, composing a unique view of tissue-specific uptake and secretion of hundreds of metabolites לסיכום- -אז העבודה של פאלסון והעבודה הזו בעקבותיה נותנים בסיס ללמוד התנהגות מטבלית ספציפית באדם. -הייחוד בעבודה הזו היא בגישה של לעשות אינטגרציה של ה data החיצוני כחלק מהאופטימזציה במקום להקצות אילוצים מוקדמים – גישה מוקדמת יותר שילבה exp ע"י שאילצה (קבעה שטף לאפס) ראקציות שה exp של האינזים שלהם נמוך – לא לפעול. אנחנו בעצם נותנים אפשרות לשלבי בקרה נוספים לבוא לידי ביטויי. - ספציפית באנליזה שלנו גילינו את המשחק החשוב שי ל post transcriptional regulation בעיצוב ההתנהגות המטבולית הספציפית באדם.
What’s Next? Integrate other tissue-specificity data Modeling of metabolic diseases Using various data sources (known disease-causing genes, drug databases) Predict tissue-wide metabolic symptoms Predict metabolic response to drugs Predict disease biomarkers that can be identified by biofluid metabolomics לסיכום- -אז העבודה של פאלסון והעבודה הזו בעקבותיה נותנים בסיס ללמוד התנהגות מטבלית ספציפית באדם. -הייחוד בעבודה הזו היא בגישה של לעשות אינטגרציה של ה data החיצוני כחלק מהאופטימזציה במקום להקצות אילוצים מוקדמים – גישה מוקדמת יותר שילבה exp ע"י שאילצה (קבעה שטף לאפס) ראקציות שה exp של האינזים שלהם נמוך – לא לפעול. אנחנו בעצם נותנים אפשרות לשלבי בקרה נוספים לבוא לידי ביטויי. - ספציפית באנליזה שלנו גילינו את המשחק החשוב שי ל post transcriptional regulation בעיצוב ההתנהגות המטבולית הספציפית באדם.
Thank you!
Mathematical representation of our optimization problem (i) Constrain all reactions associated with the gene studied to zero (based on the gene-to-reaction mapping discussed above) and use the above MILP formulation to find the maximal correspondence between reaction activities and their expression states (denoting this maximal correspondence x). (ii) Solve a series of MILP problems to find the maximal correspondence with the expression state when each of the reactions associated with the gene are activated (either with a positive or negative flux) in turn (denoting this maximal correspondence over all runs y). A gene is then defined to be active in this tissue if x<y with a confidence of y-x, inactive if x>y with a confidence of x-y, or undetermined if x=y.