Download presentation
Presentation is loading. Please wait.
Published byMervyn Porter Modified over 6 years ago
1
Bioinformatic workshop, November 2009 Schraga Schwartz
UCSC – Your Gateway to Heaven שלום. אני מברך את כולם על הגעתם לסדנה היום. אני שרגי, ביואינפורמטיקאי מהמעבדה של גיל אסט, וזה עידו. אנחנו היום הסדנה היום תקנה לכם, בשאיפה, כלים כלים שנוגעים להבנת הגנום. אנחנו נתמקד בסדנא שלנו בשני כלים, UCSC ו-galaxy, שנותנים לנו המון יכולות להסתכל ולהבין תהליכים מורכבים שמתרחשים לאורך הגנום. מכיוון שאנחנו שנינו מגיעים ממעבדה שעוסקת בספלייסינג, אנחנו גם נתמקד בתהליך הזה, ונציג מספר כלים שמאפשרים הבנה גם של תהליכים שמתרחשים ברמה הזאת, של הסלפייסינג. עם זאת, כפי שחדי העין מבינכם אולי הבחינו, ספלייסינג הוא דגש יחסית משני בסדנה הזאת – חשוב לנו שבסוף הסדנה הזאת מי שיצא ממנה ידע להשתמש ב-UCSC ובגלקסי עם כלים לחקור את הגנום מכל אספקט שהוא, ולאו דווקא מהכיוון של RNA וספלייסינג. Bioinformatic workshop, November 2009 Schraga Schwartz
2
Program First hour: UCSC – the basics Second hour: UCSC – some more!
Galaxy Tutorial
3
Understanding the genome
Chromatin Genes CpG Islands GC content Promoters Repetititve elements Conservation SNPs MiRs Expression levels Non-coding RNA secondary structure Splicing / alt. splicing Exon-intron structure אז מילת המפתח של הסדנא היא הבנה של הגנום. מדובר במשימה מאוד לא פשוטה – ככל שאנחנו לומדים יותר על הגנום, אנחנו רואים עוד ועוד רמות של מורכבות, של תהליכים שמתרחשים במקביל ושמבוקרים ע"י מיליון ואחד אלמנטים שנמצאים באינטראקציה אחד עם השני. כאן בשקף מוצגת סכמתית הדוגמא המרכזית של הביולוגיה המולקולרית, לפיה יש DNA שהופך לרנא שהופך לחלבון. כל אחד מהרמות האלו מאופיין בדרכים שונות ונתון לבקרות שונות. מה עשוי לעניין אותנו ברמת הדנא? כל האלמנטים שכתובים כאן באדום, ועוד הרבה הרבה אחרים, נגישים דרך יוסיאסי ודרך גלקסי. באמצעות שתי התוכנות האלו הם ניגשים לכם לא רק ברזולוזיה ממוקדת, של גן ספציפי, אלא גם בהקשר כלל-גנומי, מה שמאפשר לכם לשאול שאלות כמו האם תופעה ספיציפית שאתם רואים בגן שלכם היא ייחודית בגנום
4
UCSC Genome Browser היישום שנמצא בחוד החנית להבנת הגנום זה היוסיאסי. אין יישום אחר שקרוב להתחרות איתו מבחינת נוחות, מהירות, כמות ומגוון של ידע שקיים בו, ולעונג הוא לי לדבר עליו.
5
What makes UCSC divine? Make everything as simple as possible, but not simpler (Albert Einstein) 3X109 1 Track 1 Track 2 Track 3 Genome מה הופך את יוסיאסי לנשגב? סוד הקסם של יוסיאסי הוא בכך שמבנה הנתונים שעל בסיסו הוא מושתת הוא פשוט מאוד, בעוד האינפורמציה שהמשתמש יכול לקבל ממבנה נתונים כזה היא עצומה. איך נראה מבנה הנתונים בצורה מאוד סכמתית? אז בגדול יש לנו רצף באורך שלושה מיליארד בסיסים, זה הגנום האנושי. לכל אחד משלושה מיליארד הבסיסים יש קואורדינטה, מיקום יחסי לאורך הגנום. אזור בין שתי קואורדינטות נקרא אינטרוול, או מקטע. מה שיוסיאסי מתמחה בלאחסן, ולהציג, זה אינפורמציה שנוגעת לאינטרוואלים, למה, בהקשר של הגנום, מתקבש לעשות דבר כזה? כי מהרבה מאוד בחינות פונקציונאליות, הגנום מתחלק לקטעים. למשל, יש כ-22,000 מקטעים בגנום שמקודדים לחלבונים. מקטעים אלה נקראים גנים. כל אחד מהמקטעים האלו בנוי, בממוצע, משמונה מקטעים, שתורמים לחלבון, ו-7 מקטעים שנזרקים החוצה. אבל אפשר לחלק את הגנום למקטעים גם מאספקטים נוספים. למשל, קיימים בגנום מקטעים מסויימים ששמורים במיוחד לאורך האבולוציה, ואילו אזורים אחרים שלגמרי לא שמורים. קיימים בגנום מקטעים מסוימים שעשירים מאוד ב-GC, ומקטעים אחרים שלא. ומכיוון שמקטע יכול להיות כל דבר בין בסיס אחד, לאורך הגנום כולו, קיימים בגנום גם מקטעים מסויימים, באורך בסיס אחד, שבהם יש פולימורפיזם מאדם לאדם, מקטעים שנקראים SNPs. הגדולה ב-UCSC היא שהוא יודע לקחת אינפורמציה שנוגעת למגוון היבטים של הגנום, ולהעמיד אותה על מערכת צירים אחידה, של הגנום האנושי.
6
UCSC - overview Genome browser Tracks DNA Blat Convert Visualisation
אז איך נראה יוסיאסי? בגדול, הוא מאפשר לנו להכניס מקטע כרומוזומאלי, ולראות את האינפורמציה שנוגעת לו. כאן, למשל, אנחנו מסתכלים על מקטע באורך של 2000 בסיסים מתוך כרומוזום 7. כאן למעלה אנחנו רואים את האינטרוואל (למרות שאפשר גם להכניס שם של גן), וכאן זה האינפורמציה. מה כוללת האינפורמציה? המון תכונות, שחופפות למקטע הספציפי שעליו אנחנו מסתכלים. כל אחת מהתכונות האלה מופיע ב-track של עצמה. למשל, אם נסתכל על ה-track של רפסק באזור זה, אנחנו רואים שמופיעים בו שני אקסונים (הריבועים) כשהאזורים בינהם הם אינטרונים. רפסק, למי שלא יודע, זה אוסף של גנים שהוודאות לגבי היותם גנים היא יחסית גבוהה. גם אם מסתכלים על מאגר פחות בטוח, אבל עדיין די אמין, של UCSC gene predictions, אנחנו רואים סיפור זהה. אגב, למה אנחנו רואים כאן שלוש פעמים אותו דבר? כי זה איזופורמים שונים. קודם כל, אסור לשכוח שמאחורי כל מקטע שלנו מסתתר רצף נוקלאוטידים. הוא אמנם בד"כ לא מוצג, כי מסתכלים על מקטעים ארוכים מדי, אבל אפשר לגשת אליו ישירות דרך האופציה של DNA, למעלה. נגיד שהתחלנו לא בקואורדינטות, אלא במקטע של DNA – אז יש לנו דרך לעשות את האקט ההפוך דרך Blat – מכניסים את המקטע ל-Blat ואומרים לו למצוא, ולהציג, את המקטע בגנום שלשם זה עובר alignment.
7
Features to discuss Genes (Genes & prediction ->UCSC genes, Refseq)
Conservation (comparative genomics tracks->conservation,28-way const) Micro-RNAs (Genes & prediction-> sno/miRNA; Regulation ->TS miRNA); Nucleosome-positioning (Regulation ->nuclesome occupancy) Repeats (Variation & repeats ->Repeat Masker) RNA secondary structure (Genes & predictions ->EvoFold) GC percent (Mapping->GC percent) Gene/exon expression levels (Expression->Affy all exon, GNF atlas 2) CpG islands (Regulation->CpG islands) SNPs (Variation & repeats ->SNPs) splicing patterns (ESTs, cDNAs, mRNAs) Finding a motif (Mapping & Sequencing tracks -> short match) WikiTrack (Genes & Predictions -> WikiTrack)
8
Know your tracks!
9
Detecting AS events: cDNAs & ESTs
Pre-mRNA mRNA EST/cDNA איך ניתן לזהות ב-UCSC אם אקסון מסויים עובר alternative splicing? הדרך לעשות את זה עוברת דרך מולקולת ה-mRNA. מניסויים שונים, ברקמות שונות, הצטברו מיליונים על גבי מיליונים של ESTים. ESTים הם למעשה שברים, או חלקים, של cDNA, שעוברים ריצוף, שנותנים פרופיל של הטרנסקריפטום. לוקחים מקטעים של mRNA, הופכים אותם ל-cDNA, ומרצפים. מכיוון שמדובר ב-cDNA, משמעות הדבר היא שכבר אין בהם אינטרונים. אז אם לוקחים עכשיו ESTים, ועושים להם alignment כנגד EST/cDNA aligned to genome
10
Identifying alternative splicing events in UCSC
Constitutive exon Exon skipping Alt 5’ Alt 3’ Intron Retention Mutually exclusive Complex events
11
The Table Browser To understand what the raw data looks like
For downloading the raw data For uploading data of your own! Advanced uses: filter, intersect
12
How to create your own WIGGLE track
Wiggle tracks can be either fixedStep or variableStep.
13
Fixed Step track track type=wiggle_0 name="fixedStep" description="fixedStep format" fixedStep chrom=chr19 start=5000 step=300 span=200 1000 #i.e 900 #i.e 800 #i.e 700 #i.e …
14
Variable step track For additional info
track type=wiggle_0 name="variableStep" description="variableStep format" variableStep chrom=chr19 span= … For additional info
15
BedGraph format track type=bedGraph name="BedGraph Format" description="BedGraph format" chr chr chr chr More info
16
Customize your UCSC Click on Session, and just sign in…
You can then save different sessions, and share them.
17
Integrating data NF1 Pla2G5 Rabl5
How frequent are highly conserved intronic regions? How significant is lack of SNPs within 800-bp intronic region? Is exonization of transposable elements a frequent event? Are secondary structures within exonic/intronic regions frequent?
18
Galaxy Getting the best out of UCSC
Supports operations both at the interval level, and at the sequence level. Lets biologists become bioinformaticians; Lets bioinformaticians go to the beach. מענה על שאלות האלו אפשר לקבל מ-Galaxy. איך עובדים בגלקסי?
19
Typical workflow in Galaxy
Extract sets of coordinates: either upload from computer, or from UCSC table browser. Intersect/Subtract different sets of coordinates. Fetch genomic sequences of coordinates
20
מתוך אגרת הרמב"ן לבנו "וכאשר תקום מן הספר, חפש באשר למדת אם יש דבר שתוכל לקיימו"...
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.