Bioinformatic workshop, November 2009 Schraga Schwartz

Slides:



Advertisements
Similar presentations
Completeness and Expressiveness. תזכורת למערכת ההוכחה של לוגיקה מסדר ראשון : אקסיומות 1. ) ) (( 2. )) ) (( )) ( ) ((( 3. ))) F( F( ( 4. ) v) ( ) v ((
Advertisements

חיפוש בינה מלאכותית אבי רוזנפלד. סוגי חיפוש כלליים UNINFORMED SEARCH -- חיפושים לא מיודעים במרחי מצבים – BFS – DFS INFORMED SEARCH – חיפושים מיודעים –
(Paradigm=Example) Artist unknown A group of scientists placed 5 monkeys in a cage and in the middle, a ladder with bananas on the top. קבוצת מדענים.
Peter Tsai, Bioinformatics Institute.  University of California, Santa Cruz (UCSC)  A rapid and reliable display of any requested portion of genomes.
PROMoter SCanning/ANalysis tool. Goal Creating a tool to analyse a set of putative promoter sequences and recognize known and unknown promoters, with.
Genome Browsers Carsten O. Daub Omics Science Center RIKEN, Japan May 2008.
חורף - תשס " ג DBMS, Design1 שימור תלויות אינטואיציה : כל תלות פונקציונלית שהתקיימה בסכמה המקורית מתקיימת גם בסכמה המפורקת. מטרה : כאשר מעדכנים.
חורף - תשס " ג DBMS, צורות נורמליות 1 צורה נורמלית שלישית - 3NF הגדרה : תהי R סכמה רלציונית ותהי F קבוצת תלויות פונקציונליות מעל R. R היא ב -3NF.
UCSC Archaeal genome browser Advanced browsing September 19, 2006 David Bernick, Aaron Cozen and Todd Lowe September 19, 2006 David Bernick, Aaron Cozen.
Lab 3.41 Demo: Exploiting the UCSC Genome Browser Stefanie Butland UBC Bioinformatics Centre
מרצה: פרופסור דורון פלד
Formal Specifications for Complex Systems (236368) Tutorial #6 appendix Statecharts vs. Raphsody 7 (theory vs. practice)
1 Formal Specifications for Complex Systems (236368) Tutorial #1 Course site : T.A. :Emilia Katz.
Questions are the Answer Penick&all H ISTORY R ELATIOINSHIPS A PPLICATION S PECULATION E XPLANATION.
אלכסנדר ברנגולץ דואר אלקטרוני: אלכסנדר ברנגולץ דואר אלקטרוני: פעולות מורפולוגיות.
1 Data Structures, CS, TAU, Perfect Hashing בעיה: נתונה קבוצה S של n מפתחות מתחום U השוואה ל- Hash : * טבלה קבועה (Hash רגיל - דינאמי) * רוצים זמן קבוע.
מערכים עד היום כדי לייצג 20 סטודנטים נאלצנו להגדיר עד היום כדי לייצג 20 סטודנטים נאלצנו להגדיר int grade1, grade2, …, grade20; int grade1, grade2, …, grade20;
עקרון ההכלה וההדחה.
תכנות מונחה עצמים Object Oriented Programming (OOP) אתגר מחזור ב' Templates תבניות.
A. Frank File Organization Hardware Size Parameters.
Safari On-line books. מה זה ספארי ספארי זו ספריה וירטואלית בנושא מחשבים היא כוללת יותר מ כותרים כל הספרים הם בטקסט מלא ניתן לחפש ספר בנושא מסוים.
Doug Brutlag 2011 Genome Databases Doug Brutlag Professor Emeritus of Biochemistry & Medicine Stanford University School of Medicine Genomics, Bioinformatics.
Doug Brutlag Professor Emeritus Biochemistry & Medicine (by courtesy) Genome Databases Computational Molecular Biology Biochem 218 – BioMedical Informatics.
NGS Analysis Using Galaxy
מערכות המלצה / Collaborative Filtering ד " ר אבי רוזנפלד.
Galaxy for Bioinformatics Analysis An Introduction TCD Bioinformatics Support Team Fiona Roche, PhD Date: 31/08/15.
Kashrut is a mitzvah in the Torah and has been passed on through generations. Kashrut is a chok. this means that we don’t know why we do it but we.
Browsing the Genome Using Genome Browsers to Visualize and Mine Data.
פיתוח מערכות מידע Class diagrams Aggregation, Composition and Generalization.
Sackler Medical School
Practice session 3.  תחביר ממשי ( קונקרטי ) ותחביר מופשט ( אבסטרקטי )  שיטות חישוב : Applicative & Normal Evaluation.
Costs and Filters Dr. Avi Rosenfeld Department of Industrial Engineering Jerusalem College of Technology
A Non-EST-Based Method for Exon-Skipping Prediction Rotem Sorek, Ronen Shemesh, Yuval Cohen, Ortal Basechess, Gil Ast and Ron Shamir Genome Research August.
שיאון שחוריMilOSS-il מוטיבציה  python זה קל ו C זה מהיר. למה לא לשלב?  יש כבר קוד קיים ב C. אנחנו רוצים להשתמש בו, ולבסס מעליו קוד חדש ב python.
Population genetics גנים באוכלוסיות a population is a localized group of individuals belonging to the same species.
UCSC Genome Browser Zeevik Melamed & Dror Hollander Gil Ast Lab Sackler Medical School.
Accessing and visualizing genomics data
1 Formal Specifications for Complex Systems (236368) Tutorial #1 Course site:
בגיל 9 למדתי שהמורה שלי שאלה אותי רק כאשר לא ידעתי את התשובהבגיל 9 למדתי שהמורה שלי שאלה אותי רק כאשר לא ידעתי את התשובה בגיל 10 למדתי שאפשר להיות מאוהב.
קשר לוגי : סיבה ותוצאה. במשפט – דוגמות קלות בגלל הגשם החלטנו לא לנסוע לטיול לחיפה. הרצון שלי להצליח הניע אותי להשקיע בלימודים. ציפורים נודדות בין יבשות.
פס על כל העיר נורית זרחי.
קצת היסטוריה 1981דיווח ראשון על תסמונת כשל חיסוני נרכש בקרב מספר הומוסקסואלים. 1981דיווח על ביטויים שונים של איידס בקרב מזריקי סמים, חולי המופיליה, מקבלי.
אביב תשס " ה JCT תיכון תוכנה ד " ר ר ' גלנט / י ' לויאןכל הזכויות שמורות 1 פרק 5 תרשימי מצבים Statecharts למחלקות תגובתיות Reactive Classes הקדמה ודוגמא.
Human Wayfinding in Information Networks
Lab 7.2.
Programming Arrays.
Sparse RNA Folding: Time and Space Efficient algorithms
Object Oriented Programming
Object Oriented Programming
PPL Lecture 3 Slides by Yaron Gonen,
ריקי דרורי דירקטורית שיווק איזורית, גוגל אירופה ומזה"ת
Formal Specifications for Complex Systems (236368) Tutorial #1
Comp. Genomics Recitation 11 SCFG.
Object Oriented Programming
על כלבים ואנשים... About dogs and people….
תקשורת ומחשוב תרגול 1 IP, Classes and Masks.
SQL בסיסי – הגדרה אינדוקטיבית
השוואת נתונים למודל הסתברותי - כללית
Visualization of genomic data
פרוקטוז, C6H12O6 , חד-סוכר מיוחד
ממשקים - interfaces איך לאפשר "הורשה מרובה".
משימת חקר מכוון ללמידה משמעותית
Marina Kogan Sadetsky –
מופעי הירח הכינה: ליאת סופר.
למה רמת פרמי צריכה להיות קבועה בחומר שנמצא בשווי משקל?
למה.
Shell Scripts בסביבת UNIX
תוכנה 1 תרגול 13 – סיכום.
Ensembl Genome Repository.
.1Sources of DNA and Sequencing Methods 2 Genome Assembly Strategy and Characterization 3 Gene Prediction and Annotation 4 Genome Structure 5 Genome.
Presentation transcript:

Bioinformatic workshop, November 2009 Schraga Schwartz UCSC – Your Gateway to Heaven שלום. אני מברך את כולם על הגעתם לסדנה היום. אני שרגי, ביואינפורמטיקאי מהמעבדה של גיל אסט, וזה עידו. אנחנו היום הסדנה היום תקנה לכם, בשאיפה, כלים כלים שנוגעים להבנת הגנום. אנחנו נתמקד בסדנא שלנו בשני כלים, UCSC ו-galaxy, שנותנים לנו המון יכולות להסתכל ולהבין תהליכים מורכבים שמתרחשים לאורך הגנום. מכיוון שאנחנו שנינו מגיעים ממעבדה שעוסקת בספלייסינג, אנחנו גם נתמקד בתהליך הזה, ונציג מספר כלים שמאפשרים הבנה גם של תהליכים שמתרחשים ברמה הזאת, של הסלפייסינג. עם זאת, כפי שחדי העין מבינכם אולי הבחינו, ספלייסינג הוא דגש יחסית משני בסדנה הזאת – חשוב לנו שבסוף הסדנה הזאת מי שיצא ממנה ידע להשתמש ב-UCSC ובגלקסי עם כלים לחקור את הגנום מכל אספקט שהוא, ולאו דווקא מהכיוון של RNA וספלייסינג. Bioinformatic workshop, November 2009 Schraga Schwartz

Program First hour: UCSC – the basics Second hour: UCSC – some more! Galaxy Tutorial

Understanding the genome Chromatin Genes CpG Islands GC content Promoters Repetititve elements Conservation SNPs MiRs Expression levels Non-coding RNA secondary structure Splicing / alt. splicing Exon-intron structure אז מילת המפתח של הסדנא היא הבנה של הגנום. מדובר במשימה מאוד לא פשוטה – ככל שאנחנו לומדים יותר על הגנום, אנחנו רואים עוד ועוד רמות של מורכבות, של תהליכים שמתרחשים במקביל ושמבוקרים ע"י מיליון ואחד אלמנטים שנמצאים באינטראקציה אחד עם השני. כאן בשקף מוצגת סכמתית הדוגמא המרכזית של הביולוגיה המולקולרית, לפיה יש DNA שהופך לרנא שהופך לחלבון. כל אחד מהרמות האלו מאופיין בדרכים שונות ונתון לבקרות שונות. מה עשוי לעניין אותנו ברמת הדנא? כל האלמנטים שכתובים כאן באדום, ועוד הרבה הרבה אחרים, נגישים דרך יוסיאסי ודרך גלקסי. באמצעות שתי התוכנות האלו הם ניגשים לכם לא רק ברזולוזיה ממוקדת, של גן ספציפי, אלא גם בהקשר כלל-גנומי, מה שמאפשר לכם לשאול שאלות כמו האם תופעה ספיציפית שאתם רואים בגן שלכם היא ייחודית בגנום

UCSC Genome Browser היישום שנמצא בחוד החנית להבנת הגנום זה היוסיאסי. אין יישום אחר שקרוב להתחרות איתו מבחינת נוחות, מהירות, כמות ומגוון של ידע שקיים בו, ולעונג הוא לי לדבר עליו.

What makes UCSC divine? Make everything as simple as possible, but not simpler (Albert Einstein) 3X109 1 Track 1 Track 2 Track 3 Genome מה הופך את יוסיאסי לנשגב? סוד הקסם של יוסיאסי הוא בכך שמבנה הנתונים שעל בסיסו הוא מושתת הוא פשוט מאוד, בעוד האינפורמציה שהמשתמש יכול לקבל ממבנה נתונים כזה היא עצומה. איך נראה מבנה הנתונים בצורה מאוד סכמתית? אז בגדול יש לנו רצף באורך שלושה מיליארד בסיסים, זה הגנום האנושי. לכל אחד משלושה מיליארד הבסיסים יש קואורדינטה, מיקום יחסי לאורך הגנום. אזור בין שתי קואורדינטות נקרא אינטרוול, או מקטע. מה שיוסיאסי מתמחה בלאחסן, ולהציג, זה אינפורמציה שנוגעת לאינטרוואלים, למה, בהקשר של הגנום, מתקבש לעשות דבר כזה? כי מהרבה מאוד בחינות פונקציונאליות, הגנום מתחלק לקטעים. למשל, יש כ-22,000 מקטעים בגנום שמקודדים לחלבונים. מקטעים אלה נקראים גנים. כל אחד מהמקטעים האלו בנוי, בממוצע, משמונה מקטעים, שתורמים לחלבון, ו-7 מקטעים שנזרקים החוצה. אבל אפשר לחלק את הגנום למקטעים גם מאספקטים נוספים. למשל, קיימים בגנום מקטעים מסויימים ששמורים במיוחד לאורך האבולוציה, ואילו אזורים אחרים שלגמרי לא שמורים. קיימים בגנום מקטעים מסוימים שעשירים מאוד ב-GC, ומקטעים אחרים שלא. ומכיוון שמקטע יכול להיות כל דבר בין בסיס אחד, לאורך הגנום כולו, קיימים בגנום גם מקטעים מסויימים, באורך בסיס אחד, שבהם יש פולימורפיזם מאדם לאדם, מקטעים שנקראים SNPs. הגדולה ב-UCSC היא שהוא יודע לקחת אינפורמציה שנוגעת למגוון היבטים של הגנום, ולהעמיד אותה על מערכת צירים אחידה, של הגנום האנושי.

UCSC - overview Genome browser Tracks DNA Blat Convert Visualisation אז איך נראה יוסיאסי? בגדול, הוא מאפשר לנו להכניס מקטע כרומוזומאלי, ולראות את האינפורמציה שנוגעת לו. כאן, למשל, אנחנו מסתכלים על מקטע באורך של 2000 בסיסים מתוך כרומוזום 7. כאן למעלה אנחנו רואים את האינטרוואל (למרות שאפשר גם להכניס שם של גן), וכאן זה האינפורמציה. מה כוללת האינפורמציה? המון תכונות, שחופפות למקטע הספציפי שעליו אנחנו מסתכלים. כל אחת מהתכונות האלה מופיע ב-track של עצמה. למשל, אם נסתכל על ה-track של רפסק באזור זה, אנחנו רואים שמופיעים בו שני אקסונים (הריבועים) כשהאזורים בינהם הם אינטרונים. רפסק, למי שלא יודע, זה אוסף של גנים שהוודאות לגבי היותם גנים היא יחסית גבוהה. גם אם מסתכלים על מאגר פחות בטוח, אבל עדיין די אמין, של UCSC gene predictions, אנחנו רואים סיפור זהה. אגב, למה אנחנו רואים כאן שלוש פעמים אותו דבר? כי זה איזופורמים שונים. קודם כל, אסור לשכוח שמאחורי כל מקטע שלנו מסתתר רצף נוקלאוטידים. הוא אמנם בד"כ לא מוצג, כי מסתכלים על מקטעים ארוכים מדי, אבל אפשר לגשת אליו ישירות דרך האופציה של DNA, למעלה. נגיד שהתחלנו לא בקואורדינטות, אלא במקטע של DNA – אז יש לנו דרך לעשות את האקט ההפוך דרך Blat – מכניסים את המקטע ל-Blat ואומרים לו למצוא, ולהציג, את המקטע בגנום שלשם זה עובר alignment.

Features to discuss Genes (Genes & prediction ->UCSC genes, Refseq) Conservation (comparative genomics tracks->conservation,28-way const) Micro-RNAs (Genes & prediction-> sno/miRNA; Regulation ->TS miRNA); Nucleosome-positioning (Regulation ->nuclesome occupancy) Repeats (Variation & repeats ->Repeat Masker) RNA secondary structure (Genes & predictions ->EvoFold) GC percent (Mapping->GC percent) Gene/exon expression levels (Expression->Affy all exon, GNF atlas 2) CpG islands (Regulation->CpG islands) SNPs (Variation & repeats ->SNPs) splicing patterns (ESTs, cDNAs, mRNAs) Finding a motif (Mapping & Sequencing tracks -> short match) WikiTrack (Genes & Predictions -> WikiTrack)

Know your tracks!

Detecting AS events: cDNAs & ESTs Pre-mRNA mRNA EST/cDNA איך ניתן לזהות ב-UCSC אם אקסון מסויים עובר alternative splicing? הדרך לעשות את זה עוברת דרך מולקולת ה-mRNA. מניסויים שונים, ברקמות שונות, הצטברו מיליונים על גבי מיליונים של ESTים. ESTים הם למעשה שברים, או חלקים, של cDNA, שעוברים ריצוף, שנותנים פרופיל של הטרנסקריפטום. לוקחים מקטעים של mRNA, הופכים אותם ל-cDNA, ומרצפים. מכיוון שמדובר ב-cDNA, משמעות הדבר היא שכבר אין בהם אינטרונים. אז אם לוקחים עכשיו ESTים, ועושים להם alignment כנגד EST/cDNA aligned to genome

Identifying alternative splicing events in UCSC Constitutive exon Exon skipping Alt 5’ Alt 3’ Intron Retention Mutually exclusive Complex events

The Table Browser To understand what the raw data looks like For downloading the raw data For uploading data of your own! Advanced uses: filter, intersect

How to create your own WIGGLE track Wiggle tracks can be either fixedStep or variableStep.

Fixed Step track track type=wiggle_0 name="fixedStep" description="fixedStep format" fixedStep chrom=chr19 start=5000 step=300 span=200 1000 #i.e. 5000-5199 900 #i.e. 5300-5499 800 #i.e. 5600-5799 700 #i.e. 5900-6099 …

Variable step track For additional info track type=wiggle_0 name="variableStep" description="variableStep format" variableStep chrom=chr19 span=150 59304701 10.0 59304901 12.5 59305401 15.0 59305601 17.5 59305901 20.0 … For additional info

BedGraph format track type=bedGraph name="BedGraph Format" description="BedGraph format" chr19 59302000 59302300 -1.0 chr19 59302300 59302600 -0.75 chr19 59302600 59302900 -0.50 chr19 59302900 59303200 -0.25 More info

Customize your UCSC Click on Session, and just sign in… You can then save different sessions, and share them.

Integrating data NF1 Pla2G5 Rabl5 How frequent are highly conserved intronic regions? How significant is lack of SNPs within 800-bp intronic region? Is exonization of transposable elements a frequent event? Are secondary structures within exonic/intronic regions frequent?

Galaxy Getting the best out of UCSC Supports operations both at the interval level, and at the sequence level. Lets biologists become bioinformaticians; Lets bioinformaticians go to the beach. מענה על שאלות האלו אפשר לקבל מ-Galaxy. איך עובדים בגלקסי?

Typical workflow in Galaxy Extract sets of coordinates: either upload from computer, or from UCSC table browser. Intersect/Subtract different sets of coordinates. Fetch genomic sequences of coordinates

מתוך אגרת הרמב"ן לבנו "וכאשר תקום מן הספר, חפש באשר למדת אם יש דבר שתוכל לקיימו"...