Presentation is loading. Please wait.

Presentation is loading. Please wait.

3.7 Bioinformatika Bioinformatika tai informacinių technologijų taikymas biologinės informacijos saugojimui, tvarkymui ir analizei (naudojimui). Biologinė.

Similar presentations


Presentation on theme: "3.7 Bioinformatika Bioinformatika tai informacinių technologijų taikymas biologinės informacijos saugojimui, tvarkymui ir analizei (naudojimui). Biologinė."— Presentation transcript:

1 3.7 Bioinformatika Bioinformatika tai informacinių technologijų taikymas biologinės informacijos saugojimui, tvarkymui ir analizei (naudojimui). Biologinė informacija tai DNR ir RNR nukleotidų sekos (cDNR, genai, sekvenuoti genomai, molekuliniai žymenys), genolapiai, koduojamų baltymų charakteristika, mokslinių tyrimų rezultatai. Informacinės technologijos tai duomenų masyvų tvarkymas, analizė ir rezultatų pateikimas kompiuterinių programų pagalba. As a result, the last few years have seen an explosion in the field of bioinformatics, a new field of study which combines methods from computer science and information technology to analyze biological information. In its purest definition, bioinformatics is the application of information technology to biology. The ultimate goal of the field is to enable the discovery of new biological insights as well as to create a global perspective from which unifying principles in biology can be discerned the ability to capitalize on the emerging technology of database-mining - the process by which testable hypotheses are generated regarding the function or structure of a gene or protein of interest by identifying similar sequences in better characterized organisms Sutrumpintai, bioinformatika tai informacinių technologijų pritaikymas biologijoje.

2 Bioinformatikos poreikis (1)
Brangiai kainuojančių biotechnologijos tyrimų efektyvumas priklauso nuo spartaus tyrimų rezultatų informacijos praeinamumo (kam tirti ar sekvenuoti DNR jei tikslinės nukleotidų sekos jau yra žinomos). Biotechnologija sparčiai besivystanti kryptis: pasaulyje dirba tūkstančiai mokslininkų grupių ir produkuoja gausybę informacijos. Reikia “sujungti” visų mokslininkų kompiuterius į vieną tinklą ir šį tinka tinkamai tvarkyti ir suprantamai pateikti informaciją. ”..We must hook our individual computers into the worldwide network that gives us access to daily changes in the databases and also makes immediate our communications with each other. The programs that display and analyze the material for us must be improved - and we must learn to use them more effectively. Like the purchased kits, they will make our life easier, but also like the kits, we must understand enough of how they work to use them effectively…” Walter Gilbert (1991) “Towards a paradigm shift in biology” Nature News and Views 349:99 The huge amount of sequence information available cannot be analyzed manually. Computers have become essential tools in the study of this information. This was predicted by Walter Gilbert, who won a Nobel Prize for his contribution to the discovery of DNA sequencing. In a 1991 Nature News and Views article entitled “Towards a paradigm shift in molecular biology”, Walter Gilbert argues that molecular biologists with “traditional” cloning-sequencing skills will be progressively made obsolete by the rapid production of sequence data, and that the focus of molecular biology must shift towards computer-assisted biological sequence analysis. Biologinės informaciją srautai taip padidėjo, kad jų analizė galima vadinti duomenų kasyklomis (ang. data mining).

3 Bioinformatikos poreikis (2)
DNR sekų duomenų masyvai yra per dideli, kad efektyviai juos analizuoti “rankiniu” būdu (pavyzdys: DNR sekos atitikimo paieška žinomų genų DNR sekų duomenų bazėse). Duomenų masyvai talpinami į genetines duomenų bazes (pagrinde DNR sekos) sparčiai didėja tokiu lygmeniu kad: a) yra poreikis specialiai šios informacijos tvarkymui paruoštų specialistų – bioinformatikų bei b) specialių informacijos tvarkymo priemonių (duomenų bazių ir e-programų) specialiai pritaikytų bioinformacijos tvarkymui ir analizei. molecular biologists with “traditional” cloning-sequencing skills will be progressively made out-of-date by the rapid production of sequence data, and that the focus of molecular biology must shift towards computer-assisted biological sequence analysis.

4 Bioinformatikos principas (1)
Bioinformatika suderina tokius komponentus kaip: Kompiuterinės analizės metodai (paieškos varikliai, analizės programos). Nemaži duomenų masyvai yra nemokami ir laisvai prieinami per Internetą, tai ypač patogu nedidelio biudžeto centrams, kurie gali atlikti komiuterines genų sekų analizes ir atrasti naujus genus. Duomenų bazės: DNR, RNR sekos (sekvenuoti genomai, žymenys ir pan.). Baltymų amino rūgščių sekos (virš baltymų). Baltymų molekulinė struktūra (virš baltymų erdvinė struktūra).

5 Bioinformatikos principas (2)
Dideli srautai atskirų sričių informacijos Susisteminta, lengvai prieinama informacija Bioinformatika DNR sekų rinkimas ir analizė Duomenų masyvų valdymas ir komunikacijos. E-programos ir analizės automatizavimas. Sekvenuoti genomai Baltymų struktūra DNR žymenys Kandidatiniai genai cDNR sekos Baltymų sekos Genolapiai Fiziologija Genetinės įvairovės tyrimai Genetinės įvairovės tyrimai Fiziologija Sekvenuoti genomai Baltymų struktūra Genolapiai cDNR sekos DNR žymenys Kandidatiniai genai Baltymų sekos

6 Bioinformatikos raida
“Genominės revoliucijos” pradžioje bioinformatika apėmė tik tokios biologinės informacijos kaip nukleotidų ar aminorūgščių sekų duomenų bazių palaikymą. Vėliau reikėjo tobulinti duomenų bazes įjungiant, interaktyvų naudojimą (naujų duomenų inkorporacija ir analizė). Dabartiniu metu, pagrindinis dėmesys yra paruošti įvairių sričių interaktyvią biologinės informacijos derinio valdymo, analizės ir interpretacijos sistemą (nuo DNR sekų iki baltymų erdvinės struktūros) At the beginning of the "genomic revolution", a bioinformatics concern was the creation and maintenance of a database to store biological information, such as nucleotide and amino acid sequences. Development of this type of database involved not only design issues but the development of complex interfaces whereby researchers could both access existing data as well as submit new or revised data. Ultimately, however, all of this information must be combined to form a comprehensive picture of normal cellular activities so that researchers may study how these activities are altered in different disease states. Therefore, the field of bioinformatics has evolved such that the most pressing task now involves the analysis and interpretation of various types of data, including nucleotide and amino acid sequences, protein domains, and protein structures. The actual process of analyzing and interpreting data is referred to as computational biology. Important sub-disciplines within bioinformatics and computational biology include: the development and implementation of tools that enable efficient access to, and use and management of, various types of information the development of new algorithms (mathematical formulas) and statistics with which to assess relationships among members of large data sets, such as methods to locate a gene within a sequence, predict protein structure and/or function, and cluster protein sequences into families of related sequences Pagrindiniai bioinformatikos duomenys tai DNR ir RNR nukleotidų sekos bei baltymų amino rūgščių sekos.

7 Pagrindinės bioinformatikos sritys
Genomų sekų analizė: Sekvenuotų genomų sekos, cDNR sekos, EST, SNP žymenų sistemų sekos: QTL ir genų paieškos tyrimai. Molekulinis modeliavimas: Kompiuterinė baltymų sudėties ir erdvinės struktūros prognoze pagal nukleotidų sekas. Filogenija ir evoliucija: Informacija apie rūšių ir populiacijų evoliuciją pagal genų sekų panašumus. Statistinė biologija: Biologinės informacijos apdorojimo ir analizės e-priemonių ir statistinių metodų kūrimas ir vystymas. As the application of information technology to biology, bioinformatics pervades the whole of biology, including genetics, biochemistry, ecology and medicine. However, much of the publicity and emphasis which bioinformatics has received in the last few years has been on DNA and protein sequence analysis. Given the large amount of sequence data available and the rate at which it is growing, this is where the need for computer analysis has been felt the most. DNA and protein sequences are particularly amenable to computer analysis, since they can be represented by strings of letters, which computers are very apt to deal with. A DNA sequence is a string of 4 letters (A, C, G and T), and a protein sequence can also be represented by a string of 20 letters, each of which represents an amino acid Sequence analysis Geneticists/ molecular biologists analyse genome sequence information to understand disease processes Molecular modeling Crystallographers/ biochemists design drugs using computer-aided tools Phylogeny/evolution Geneticists obtain information about the evolution of organisms by looking for similarities in gene sequences Ecology and population studies Bioinformatics is used to handle large amounts of data obtained in population studies Medical informatics

8 Genomų sekų analizė (1) Tikslas: gausių DNR ir RNR sekų informacijos sisteminimas genominių žemėlapių pagalba ir analizė specialiomis kompiuterinėmis programomis. Kompiuterizuoti interaktyvūs genominiai žemėlapiai tai atitinkamai susisteminti nukleotidų sekų rinkiniai paversti į elektroninį interaktyvų formatą. Genominiai žemėlapiai tai efektyvus įrankis genų, genominių sekų, išreikštų sekų (cDNR) ar molekulinių žymenų sankibos grupių paieškai ir palyginimui (panašu į elektrinines knygų bibliotekas). Pavyzdžiai: Ar tiriamas genas yra kitos rūšies genome, kada išreikštas? Kaip homologinių sekų genai išsidėstę chromosomose ir kokia tvarka? Su kokio žinomo geno sekomis, tyrimuose išreikšto geno sekos buvo panašios? Kokius pasigaminti PCR pradus, kad efektyviau aptikti genetinę variaciją norimame požymyje? Kaip atskirti koduojamas ir nekoduojamas sekvenuoto genomo dalis? Genome Mapping Genomic maps serve as a scaffold for orienting sequence information. A few years ago, a researcher wanting to localize a gene, or nucleotide sequence, was forced to manually map the genomic region of interest, a time-consuming and often painstaking process. Today, thanks to new technologies and the influx of sequence data, a number of high-quality, genome-wide maps are available to the scientific community for use in their research. Computerized maps make gene hunting faster, cheaper, and more practical for almost any scientist. In a nutshell, scientists would first use a genetic map to assign a gene to a relatively small area of a chromosome. They would then use a physical map to examine the region of interest close up, to determine a gene's precise location. In light of these advances, a researcher's burden has shifted from mapping a genome or genomic region of interest to navigating a vast number of Web sites and databases. Map Viewer: A Tool for Visualizing Whole Genomes or Single Chromosomes NCBI's Map Viewer is a tool that allows a user to view an organism's complete genome, integrated maps for each chromosome (when available), and/or sequence data for a genomic region of interest. When using Map Viewer, a researcher has the option of selecting either a "Whole-Genome View" or a "Chromosome or Map View". The Genome View displays a schematic for all of an organism’s chromosomes, whereas the Map View shows one or more detailed maps for a single chromosome. If more than one map exists for a chromosome, Map Viewer allows a display of these maps simultaneously. Using Map Viewer, researchers can find answers to questions such as: Where does a particular gene exist within an organism's genome? Which genes are located on a particular chromosome and in what order? What is the corresponding sequence data for a gene that exists in a particular chromosomal region? What is the distance between two genes? The rapidly emerging field of bioinformatics promises to lead to advances in understanding basic biological processes and, in turn, advances in the diagnosis, treatment, and prevention of many genetic diseases. Bioinformatics has transformed the discipline of biology from a purely lab-based science to an information science as well. Increasingly, biological studies begin with a scientist conducting vast numbers of database and Web site searches to formulate specific hypotheses or to design large-scale experiments. The implications behind this change, for both science and medicine, are staggering.

9 Palyginamoji daugelio sekų analizė
Genomų sekų analizė (2) Sekų analizės apžvalga Genomo nukleotidų sekų failas Panašių sekų paieška Molekulinių žymenų kūrimas (restriktazės, PCR, EST) Koduojančių atkarpų paieška coding Baltymų sekų failas Paversti į baltymą nekoduojanti koduojanti Žinomų SSR identifikacija Genų paieška Erdvinės struktūros modeliai Panašių sekų paieška Sekų palyginimas RNR struktūros modeliai Sekų palyginimas The next part of the lecture uses flowcharts to outline a range of procedures commonly used in computer-assisted biomolecular sequence analysis. This rather complicated flowchart summarizes this whole section of the lecture. The flowchart will be divided into four sections: Sequence entry: getting the sequence into the computer Nucleotide sequence analysis Protein sequence analysis Multiple sequence analysis (working with multiple sequence alignments) Each step of the flowchart will be examined in turn Palyginamoji daugelio sekų analizė Sukurti sekų palyginimo profilį Profilio analizė Homologinių sekų (genų) identifikacija Filogenija Baltymų šeimų (panašių tarp rūšių) analizė

10 Palyginamoji DNR sekų analizė
Specialių kompiuterinių programų pagalba lyginamos DNR sekos išskleidžiamos šalia, ir identiški nukleotidai atitinkamai pažymimi (pvz., vertikliais brūkšniais); kur reikalinga paliekami tarpai, ieškant maksimalių sutapimų tarp lyginamų sekų. 768 TT....TGTGTGCATTTAAGGGTGATAGTGTATTTGCTCTTTAAGAGCTG 813 || || || | | ||| | |||| ||||| ||| ||| 87 TTGACAGGTACCCAACTGTGTGTGCTGATGTA.TTGCTGGCCAAGGACTG 135 814 AGTGTTTGAGCCTCTGTTTGTGTGTAATTGAGTGTGCATGTGTGGGAGTG 863 | | | | |||||| | |||| | || | | 136 AAGGATC TCAGTAATTAATCATGCACCTATGTGGCGG 172 864 AAATTGTGGAATGTGTATGCTCATAGCACTGAGTGAAAATAAAAGATTGT 913 ||| | ||| || || ||| | ||||||||| || |||||| | 173 AAA.TATGGGATATGCATGTCGA...CACTGAGTG..AAGGCAAGATTAT 216 mismatch match gap The most common way to compare two sequences is to align them, inserting gaps if necessary so that they match as much as possible. This is useful to identify regions of common function etc…

11 Genų paieška DNR sekose
Kodono pirmumo principas taikomas sekvenuotų genomų tolesnėje analizėje. Žinant tam tikra medžio biocheminėje sudėtyje gausaus baltymo pagrindinę amino rūgštį, kompiuterio pagalba galima ieškoti DNR atkarpų, kuriuose vyrauja šią amino rūgštį koduojantis tripletas (kodonas, pvz. CUG). Analizės metu, tiksliniam kodonui suteikiamas pirmumas ir pagal kodono pasikartojimo dažnį apskaičiuojant kodono pirmumo rodiklis, kuris identifikuojamas kaip intronas ir baltymą koduojančio geno dalis. 1,000 2,000 3,000 4,000 2.0 1.5 1.0 0.5 -0.0 For example, a simple method which is used to detect coding regions in some bacteria makes use of the preference for particular codons to encode particular amino acids in these bacteria (for example, over 80% of Leucine residues in E. coli are encoded by the codon CUG, in preference to the codons CUU, CUC and CUA). In organisms where there is a marked codon bias this method can be successful especially for detecting highly expressed genes, by plotting the correspondence between the codon usage in the organism and the various reading frames of the sequence being studied. Legend for the figure above: A) reading frame 1 B) reading frame 2 C) reading frame 3 D) large open reading frame in frame 2 E) In this region of reading frame 2, the agreement between the codon usage in the reading frame and the codon usage in the organism is high as shown by the curve rising high above the baseline. This, together with the long open reading frame, indicates a very likely coding region. Further reading: Staden, R. and McLachlan, A.D. (1982) “Codon preference and its use in identifying protein coding regions in long DNA sequences” Nucleic Acids Res. 10: Kodono pirmumo rodiklis

12 Restriktazių kirpimo modeliavimas
Enzyme name Recognition sequence Speciali kompiuterinė programa parodo kuriuose tam tikro DNR fragmento vietose kiekviena restriktazė perkirps DNR (pažymėta brūkšneliu). Tai padeda parinkti tinkamas restriktazes (pvz. siekiant padalinti DNR fragmentą į vienodas dalis.) Restriktazė AceIII 1 CAGCTCnnnnnnn’nnn... AluI 2 AG’CT AlwI 1 GGATCnnnn’n_ ApoI 2 r’AATT_y BanII 1 G_rGCy’C BfaI 2 C’TA_G BfiI 1 ACTGGG BsaXI 1 ACnnnnnCTCC BsgI 1 GTGCAGnnnnnnnnnnn... BsiHKAI 1 G_wGCw’C Bsp1286I 1 G_dGCh’C BsrI 2 ACTG_Gn’ BsrFI 1 r’CCGG_y CjeI 2 CCAnnnnnnGTnnnnnn... CviJI 4 rG’Cy CviRI 1 TG’CA DdeI 2 C’TnA_G DpnI 2 GA’TC EcoRI 1 G’AATT_C HinfI 2 G’AnT_C MaeIII 1 ’GTnAC_ MnlI 1 CCTCnnnnnn_n’ MseI 2 T’TA_A MspI 1 C’CG_G NdeI 1 CA’TA_TG Sau3AI 2 ’GATC_ SstI 1 G_AGCT’C TfiI 2 G’AwT_C Tsp45I 1 ’GTsAC_ Tsp509I 3 ’AATT_ TspRI 1 CAGTGnn’ 50 100 150 200 250 Kerpimo vietų sekos cutting sites This type of display is produced by the program mapplot, part of the GCG package. It lists the restriction enzymes which cut a particular sequence (together with their recognition sequence) and creates a graphical representation of the sequence with the cutting sites marked along a line representing the sequence. This type of image is useful for finding suitable restriction enzymes for subcloning a particular sequence fragment, or for producing a distinctive restriction pattern for in vitro diagnostic procedures.

13 Specialios programos PCR pradų gamybai
OPTIMAL primer length > 20 MINIMUM primer length > 18 MAXIMUM primer length > 22 OPTIMAL primer melting temperature --> MINIMUM acceptable melting temp > MAXIMUM acceptable melting temp > MINIMUM acceptable primer GC% > MAXIMUM acceptable primer GC% > Salt concentration (mM) > DNA concentration (nM) > MAX no. unknown bases (Ns) allowed --> 0 MAX acceptable self-complementarity --> 12 PCR planning programs let the user specify criteria such as primer length, melting temperature, GC content etc...

14 Filogenija ir evoliucija
Šios disciplinos tikslas yra homologinių (panašių) genų sekų paieška tarp organizmų, genčių ir rūšių Bendrų vystymasis sąsajų tarp įvairių rūšių nustatymas (principas: panašios rūšys turi panašesnes baltymų amino rūgščių ar DNR nukleotidų sekas) Baltymai, kurių pirminė struktūra panaši tarp rūšių, sudaro baltymų šeimas, o erdvinė struktūra- “blokus”. Mokslininkai rekonstruoja evoliucinius ryšius tarp rūšių ir nustato kada paskutinį kartą lyginamos rūšys turėjo bendrus tėvus. New insight into the molecular basis of a disease may come from investigating the function of homologs of a disease gene in model organisms. In this case, homology refers to two genes sharing a common evolutionary history. Scientists also use the term homology, or homologous, to simply mean similar, regardless of the evolutionary relationship. Equally exciting is the potential for uncovering evolutionary relationships and patterns between different forms of life. With the aid of nucleotide and protein sequences, it should be possible to find the ancestral ties between different organisms. Thus far, experience has taught us that closely related organisms have similar sequences and that more distantly related organisms have more dissimilar sequences. Proteins that show a significant sequence conservation, indicating a clear evolutionary relationship, are said to be from the same protein family. By studying protein folds (distinct protein building blocks) and families, scientists are able to reconstruct the evolutionary relationship between two species and to estimate the time of divergence between two organisms since they last shared a common ancestor. Phylogenetics is the field of biology that deals with identifying and understanding the relationships between the different kinds of life on earth. Filogenija tai biologijos šaka tirianti asociacijas tarp įvairių organizmų (genčių , rūšių, porūšių ir pan.)

15 Filogeniniai medžiai Bakterijų rūšių giminyste pagal jų DNR sekų panašumą Multiple sequence alignments can therefore be used as input to create phylogenetic trees representing possible evolutionary relationships. The principle is that the more closely related two species, the more similar their homologous sequences will be (in general - there are many exceptions) For example, according to the above tree, B. subtilis and B. cereus are more closely related to each other than to C. botulinum, C. cadavers, C. butyricum or E. coli. This tree was created from an alignment of the 16s ribosomal RNA sequences from the various bacteria. Further reading: molecular phylogeny is a very large field in itself, with a lot of associated literature. A good introduction to the field can be found in: Swofford, Olsen, Waddell and Hillis (1996) “Phylogenetic inference” in Molecular Systematics (2nd ed), DM Hillis, C Moritz and BK Mable eds.Sinauer Associates, Inc. Sunderland MA, USA

16 Molekulinis modeliavimas
Tikslas: kompiuterinė baltymų sudėties ir erdvinės (3-D) struktūros prognoze pagal nukleotidų sekas (viena iš proteomikos dalių). Puiki išeitis jei neįmanoma atlikti gana brangių baltymų struktūros nustatymo metodų rentgeno kristalografijos pagalba. Baltymų sekos aprašomas raidėmis (kiekviena aminorūgštis- raidė (viso 20 raidžių). Pagrindiniai 4 etapai: Rasti žinomos erdvinės struktūros baltymus, kurių aminorūgščių sekos panašios į tiriamo baltymo sekas, Palyginti abiejų baltymų sekas tikslu nustatyti identiškas dalis, kurios bus naudojamos kaip jungčių pavydžiai modeliavimui, Sudaryti tiriamo baltymo erdvinį modelį pagal jungčių pavydžius, Išbandyti erdvinį modelį pagal eilę testavimo kriterijų. Protein Modeling The process of evolution has resulted in the production of DNA sequences that encode proteins with specific functions. In the absence of a protein structure that has been determined by X-ray crystallography or nuclear magnetic resonance (NMR) spectroscopy, researchers can try to predict the three-dimensional structure using protein or molecular modeling. This method uses experimentally determined protein structures (templates) to predict the structure of another protein that has a similar amino acid sequence (target). Although molecular modeling may not be as accurate at determining a protein's structure as experimental methods, it is still extremely helpful in proposing and testing various biological hypotheses. Molecular modeling also provides a starting point for researchers wishing to confirm a structure through X-ray crystallography and NMR spectroscopy. Because the different genome projects are producing more sequences and because novel protein folds and families are being determined, protein modeling will become an increasingly important tool for scientists working to understand normal and disease-related processes in living organisms. The Four Steps of Protein Modeling Identify the proteins with known three-dimensional structures that are related to the target sequence Align the related three-dimensional structures with the target sequence and determine those structures that will be used as templates Construct a model for the target sequence based on its alignment with the template structure(s) Evaluate the model against a variety of criteria to determine if it is satisfactory

17 Palyginamoji baltymų sekų analizė
Įvairių organizmų baltymų sekos lyginamos kartu jas išdėstant panašiai kaip DNR atkarpas. In this example, amino acids in the alignment were colored according to their physico-chemical properties. This type of representation is often useful to highlight conserved functional regions in a protein. The alignment was formatted using the program MacBoxshade (Michael Baron) Baltymų sekos aprašomas raidėmis (kiekviena aminorūgštis= viena raidė (viso 20 raidžių).

18 Baltymų struktūros prognozė
Prognozuojama baltymų struktūra pagal žinomos struktūros panašios sudėties baltymus. 3D struktūra naudojama baltymo funkcijos tyrimų prognozei. Nežinomos struktūros baltymo seka ? Struktūros modelis A - A - K- M A - A - K- M Analizė A - L - K- M A - L - K- M There are several approaches to building a 3 dimensional model for a protein: Homology modeling uses sequence similarity to map a sequence onto the known structure of a similar sequence (for example, using BLAST to search the PDB database) Profiling involves converting known structures into 3D profiles where the residue preference for each position is classified according to secondary structure (helix, strand, coil) and hydrophobicity/accessibility (exposed, partially exposed, buried). The query sequence can then be mapped onto a library of 3D profiles and the best matching profiles are selected. Threading also involves mapping a sequence onto a library of structures, but only structural information is used. Instead, pseudo-potential energy functions are used to evaluate residue-residue interactions. The query sequence is “threaded” through the various potential structures in the library and the folds yielding the lowest interaction energy when the sequence is mapped onto them are selected. For example, a fold which bring two residues of opposite charge close together will be considered a better fit than a fold which brings together two residues of the same charge or two large residues which would cause a steric clash. (Slide and notes courtesy of Dr Shoba Ranganathan, Australian Genomic Information Centre) Katalizuojamos reakcijos ir funkcijos prognozė Žinomos struktūros baltymo seka

19 Statistinė biologija Tikslas biologinių duomenų analizės ir interpretacijos priemonių kūrimas: Priemonės, kurios įgalina efektyvų priėjimą prie duomenų masyvų, jų tvarkymą ir naudojimą (pagrinde, duomenų bazių programos, glaustame, naudojimui internete tinkančiame formate). Kūrimas naujų algoritmų (matematinių formulių) ir rodiklių, kurie padėtų kompleksinių duomenų masyvų analizėje (pvz. DNR sekų asociacijų tyrimai, baltymų struktūros modeliai ir baltymų grupavimas pagal jų panašumą). Therefore, the field of bioinformatics has evolved such that the most pressing task now involves the analysis and interpretation of various types of data, including nucleotide and amino acid sequences, protein domains, and protein structures. The actual process of analyzing and interpreting data is referred to as computational biology. Important sub-disciplines within bioinformatics and computational biology include: the development and implementation of tools that enable efficient access to, and use and management of, various types of information the development of new algorithms (mathematical formulas) and statistics with which to assess relationships among members of large data sets, such as methods to locate a gene within a sequence, predict protein structure and/or function, and cluster protein sequences into families of related sequences

20 BLAST: sekų panašumo analizė
(2) (1) BLAST (Basic Local Alignment Search Tool) tai specialiai sekų palyginimui duomenų bazėse skirta programa BLAST viena iš pagrindinių nemokamų sekų palyginimo programų ir yra laisvai prieinama Internete (pvz. NCBI www puslapis). Žemiau patiektas BLAST padygimosios analizės rezultatas (panašios sekos ir jų panašumo rodiklis p tai tikimybė kad panašumas yra atsitiktinis). (3) Sequences producing significant alignments: (bits) Value gnl|PID|e (Z74911) ORF YOR003w [Saccharomyces cerevisiae] e-26 gi| (U18795) Prb1p: vacuolar protease B [Saccharomyces ce e-24 gnl|PID|e (X59720) YCR045c, len:491 [Saccharomyces cerevi e-13 gnl|PID|e (Z71514) ORF YNL238w [Saccharomyces cerevisiae] gnl|PID|e (Z71603) ORF YNL327w [Saccharomyces cerevisiae] gnl|PID|e (Z71554) ORF YNL278w [Saccharomyces cerevisiae] gnl|PID|e (Z74911) ORF YOR003w [Saccharomyces cerevisiae] Length = 478 Score = 112 bits (278), Expect = 7e-26 Identities = 85/259 (32%), Positives = 117/259 (44%), Gaps = 32/259 (12%) Query: 2 QSVPWGISRVQAPAAHNRG LTGSGVKVAVLDTGIST-HPDLNIRGG-ASFV 50 + PWG+ RV G G GV VLDTGI T H D R Sbjct: 174 EEAPWGLHRVSHREKPKYGQDLEYLYEDAAGKGVTSYVLDTGIDTEHEDFEGRAEWGAVI 233 Query: 51 PGEPSTQDGNGHGTHVAGTIAALNNSIGVLGVAPSAELYXXXXXXXXXXXXXXXXXQGLE 110 P D NGHGTH AG I GVA G+E Sbjct: 234 PANDEASDLNGHGTHCAGIIGSKH-----FGVAKNTKIVAVKVLRSNGEGTVSDVIKGIE 288 The most used database similarity searching program is BLAST. Here is an excerpt from a BLAST output, listing the database sequences which were found to match the query sequence (1). A probability value (2) is calculated for each sequence, and gives an estimate of the probability that the match happened by chance and not significant (the lower this number, the better the match). For the best matches, the similarity is shown directly using an alignment of the two sequences (3) Further reading: Altschul, S.F. (1998) “Fundamentals of database searching” Trends Guide to Bioinformatics (Trends in Genetics 1998 Supplement) 7-9 Brenner, S.E. (1998) “Practical database searching” Trends Guide to Bioinformatics (Trends in Genetics 1998 Supplement) 9-12 Schuler, G.D. (1998) “Sequence alignment and database searching” in Bioinformatics, a Practical Guide to the Analysis of Genes and Proteins Baxevanis,A.D. and Ouelette, B.F.F. eds, John Wiley and Sons, ISBN ,

21 Informacinės sistemos
Pagrindinės miško medžių biologinės informacinės sistemos (Duomenys apie DNR RNR ir baltymų sekas, “On-line” analizės programos (pvz. BLAST)): NCBI (JAV nacionalinis biotechnologinės informacijos centras). EMBL (Europos molekulinės biologijos laboratorija) ( ) ir EBI (Europos bioinformatikos institutas Miško medžiai: pagrinde TreeGenes informacinė sistema (Dendrome projektas, JAV). (

22 EMBL ir EBI informacinė sistema
EBI- European bioinformatics institute. DNR ir RNR sekos Baltymų sekos BLAST palyginimas Literatūra

23 Dendrome projektas “Dendrome” miško medžių genomikos projekto rėmuose sukurta eilė medžių genomo analizės priemonių: TreeGenes duomenų bazė (genolapiai, žymenys, QTL) BLAST sekų panašumo pieškos įrankis Mokslinės litertūros paieškos variklis

24 TreeGenes: medžių genomo duomenų bazė
TreeGenes yra genolapių duomenų bazė: EST, SNP, Genolapiai, Molekuliniai žymenys, QTL, Literatūra. Palyginamieji genolapiai (Pinus taeda, P. menziessi, Picea abies, ir t.t.) Welcome to the TreeGenes database! TreeGenes is a comparative mapping database for conifers. Both automatic and manual curation are performed to combine and interrelate information on EST sequences, SNPs, genetic maps, molecular markers, phenotypes and QTL, and publications. Comparative maps of key species including Loblolly Pine, Douglas-Fir, Norway Spruce, Monterey Pine, and Maritime Pine are anchored to each other by a set of curated correspondences as well as by sequence similarity of ESTs and markers. We use controlled vocabularies (ontologies) to describe genes which permits users to query and make comparisons across taxonomic groups. All raw and integrated information, as well as software developed as part of this project, is available for use without restriction. TreeGenes is housed in an Oracle 9i database that is fed validated information from a variety of mysql internal and test databases. The information is presented to the research community through a web-based graphical interface environment. Data submission is critical to the value of this resource. Members of the conifer research community are encouraged to submit data through the literature object. Here, users can supplement their publication with raw map data, EST data, and other sequence data. This information will be curated and propagated through the existing database structure

25 NCBI informacinė sistema
DNR ir RNR sekos, baltymų sekos, BLAST palyginimas, referencijos At NCBI, many of our databases are linked through a unique search and retrieval system, called Entrez. Entrez (pronounced ahn' tray) allows a user to not only access and retrieve specific information from a single database but to access integrated information from many NCBI databases. For example, the Entrez Protein database is cross-linked to the Entrez Taxonomy database. This allows a researcher to find taxonomic information (taxonomy is a division of the natural sciences that deals with the classification of animals and plants) for the species from which a protein sequence was derived. NCBI sistema apjungia keliolika duomenų bazių, naudojant bendrus paieškos variklius (vienu metu galima atlikti paiešką visose duomenų bazėse)

26 Duomenų bazių naudojimas (1)
Pavyzdys. Planuojami Picea EST žymenų paieškos tyrimai. Reikalinga jau nustatytų EST žymenų analizė. Priemonė: NCBI duomenų bazės paieškos varikliai. 1. Pasirenkame duomenų bazę 2. Įrašome paieškos raktinius žodžius Picea est

27 Duomenų bazių naudojimas (2)
3. Paieškos rezultatas 4. Dominantis rezultatas

28 Duomenų bazių naudojimas (3)
5. Geno išreikšto vėlyvoje embriogenezės stadijoje radimo žymenys 6. Referencija į tyrimo rezultatų straipsnį 7. Dominančios sekos

29 Ateities poreikiai Informacinis “sprogimas”:
Reikia greitesnių, labiau automatizuotų analizės priemonių. Glaudesnės integracijos tarp įvairių duomenų kategorijų (DNR sekos, baltymų sekos, literatūra, klasikinė genetika ir selekcija ir tt.). Reikia “gudresnių” ypač didelių duomenų masyvų analizės priemonių. Bioinformatikos specialistų trūkumas: Kompiuteristai turėtų daugiu žinoti apie biologiją. Biologai turėtų daugiau žinoti apie kompiuteriją (programas, jų naudojimas ir rezultatų interpretacija). There is a lot of interest in bioinformatics and there is no doubt that the techniques being developed are becoming widespread in molecular biology, from small scale sequence analysis to the large scale study of whole genomes. One of the challenges in bioinformatics is keeping up with the rapid pace of growth in sequence data. Genbank doubles every 14 months, whereas the computing power to analyze the information doubles every 18 months. The future of bioinformatics analysis therefore cannot rely solely on developments in computer technology, but is also dependent on the development of faster, more efficient analysis methods and of “expert systems” for the automatic detection of interesting information in large amounts of data with a minimum of human input. It is important to realize that the bioinformatics discovery process has to be driven by biology. Information technology may provide the means and techniques but ultimately biologists are the ones who have to use the tools and apply their knowledge of biology to the formulation of the problems to be solved using bioinformatics, and the interpretation of the results from bioinformatics analyses. Bioinformatics software is certainly becoming easier to use, but it is important that biologists understand the assumptions and limitations underlying the software tools they are using in order to make the best use of them.

30 Literatūros sąrašas Baxevanis, A.D., Ouellette, B. F Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, Third Edition. Wiley-Interscience ISBN: Claverie, J-M., Notredame, C Bioinformatics for Dummies. For Dummies; 1st edition, ISBN: Jones, N.C., Pevzner, P.A An Introduction to Bioinformatics Algorithms (Computational Molecular Biology). The MIT Press. ISBN: Krutovskii, K.V., Neale, D. B. Forest genomics for conserving adaptive genetic diversity. Forest Genetic Resource Working Paper FGR/3(E), FAO, Rome Italy. Mount, D.W Bioinformatics: Sequence and Genome Analysis. Cold Spring Harbor Laboratory Press; 2nd edition, ISBN:


Download ppt "3.7 Bioinformatika Bioinformatika tai informacinių technologijų taikymas biologinės informacijos saugojimui, tvarkymui ir analizei (naudojimui). Biologinė."

Similar presentations


Ads by Google