Банки информации в молекулярной биологии С.А.Спирин 11/III – 2006.

Slides:



Advertisements
Similar presentations
(095) Программное обеспечение для управления торговой компанией Бизнес Менеджер Интерфейс.
Advertisements

Биоинформатика Исследование информационных процессов в биологических системах (клетках, органах, организме, популяции). Изучение и внедрение в компьютерную.
Курс «Биоинформатика» ф-т биоинженерии и биоинформатики МГУ А.В. Алексеевский. Использованы материалы лекций А.Б.Рахманиновой и С.А.Спирина.
Введение в органическую химию
Сравнительный анализ пространственных структур белков 3. Поверхность белка: визуализация, вычисление площади, сравнение участков поверхности.
Linguistic tools Лекция 5. ПОИСКОВЫЕ СИСТЕМЫ: предыстория Библейские индексы и конкордансы 1247 – Hugo de St. Caro – было задействовано 500 монахов для.
Вводная лекция Курс «Биоинформатика» ф-т биоинженерии и биоинформатики МГУ А.Б.Рахманинова, 3/IX – 2007, использованы материалы лекции С.А.Спирина, 2006.
Схема распределения грантов городам-участникам программы Тасис (TCAS) Экологические гранты для муниципалитетов.
Поиск оптимального набора параметров оптимизаций компилятора Брусенцов Леонид Евгеньевич студент 4 курса ФИТ НГУ Руководители:Илья.
Автоматическая генерация кода программ с явным выделением состояний Канжелев С.Ю. магистрант СПбГУ ИТМО Шалыто А.А. доктор технических наук профессор СПбГУ.
Утилизация нефтяного попутного газа: обоснование выбора регулирующего решения Гаврилов В.В. Минэкономразвития России.
ВятГУ «"Обеспечение доступа участников национальной нанотехнологической сети к электронным источникам НТИ” (ФЦП "Развитие инфраструктуры наноиндустрии.
Чибиняева Ольга 4 курс.  Сущность профессии финансового аналитика  Составляющие квалифицированного аналитика  Преимущества и недостатки профессии 
Дипломная работа Ивановой О.О., группа 545 Научный руководитель: д. ф.-м. н., профессор Терехов А.Н. Генерация кода по диаграмме активностей.
Система Антиплагиат.РГБ: результаты работы и новые возможности Десятая, юбилейная, международная научно-практическая конференция "ЭЛЕКТРОННЫЙ ВЕК КУЛЬТУРЫ"
Системы отбора. Условные обозначения (1) (2) (3) (4) (5) (6) (7) Математическое моделирование процессов отбора2.
ООО «Баркод Маркет».  Инвентаризация имущества – программная система, позволяющая организовать учет любого имущества компании.  Уменьшение неконтролируемых.
Генная инженерия.
Грековой Марии. Играет важную роль в формулировке современных теорий. Некоторые симметрии в современной физике считаются точными, другие — лишь приближёнными.
 Максимум информации, которую мы можем получить из современных сайтов кулинарных рецептов, это список ингредиентов и руководство по приготовлению  Но.
Савенко Мария Олеговна, 361 группа Научный руководитель: старший преподаватель В.С.Полозов.
Тел. (495) Москва, а/я 212 Рабочая группа по реформе МВД Москва, 2010 Новикова Асмик, Фонд «Общественный вердикт»
АВДАШЕВА СВЕТЛАНА КАФЕДРА ЭКОНОМИЧЕСКОГО АНАЛИЗА ОРГАНИЗАЦИЙ И РЫНКОВ 2011/2012 УЧЕБНЫЙ ГОД Политика поддержки конкуренции (по выбору для 2 курса магистратуры.
Тушин Александр, ЗАО «Компания Либэр». 1) Предоставление полнотекстовых материалов 2) Поиск по внутреннему содержанию документа 3) Доступность в режиме.
ПРИНЦИПЫ РАЗРАБОТКИ СИСТЕМЫ КЛАССА LEARNING MANAGEMENT SYSTEM И ОПЫТ ЕЕ ИСПОЛЬЗОВАНИЯ НА ФАКУЛЬТЕТЕ МЕНЕДЖМЕНТА Афанасьева С.В. Кафедра бизнес-информатики.
Анализ программных средств. Результаты для студентов,ученых, клинических врачей и других! Pr G. Noël University Radiation Department (URD) Strasbourg 1.
АВДАШЕВА СВЕТЛАНА КАФЕДРА ЭКОНОМИЧЕСКОГО АНАЛИЗА ОРГАНИЗАЦИЙ И РЫНКОВ 2011/2012 УЧЕБНЫЙ ГОД Теория отраслевых рынков (по выбору для 3 курса факультета.
Учитель математики Кулакова Т.М. МОУ ООШ №15 г.о Новокуйбышевск Самарской области Сентябрь 2011г.
Создание сервиса синхронизации разнородных баз данных Допущена к защите зав. кафедрой: д.ф.м.н., профессор Терехов А.Н. Научный руководитель: доцент Графеева.
Приложение 3.1. (3.30) (П3.1.-1) (П3.1.-2) (П3.1.-3) (П3.1.-4) (3.31)
Инновационные разработки в области новых методов лечения заболеваний Проф. О.С.Медведев ФФМ, МГУ им. М.В.Ломоносова.
Блок 3. Семейства белков I. Множественное выравнивание Первый курс, весна 2008, А.Б.Рахманинова.
Ответы на вопросы 7 июля « Подготовка паспортов безопасности» тел: (495) Экологический Синтезирующий.
1 Генерация контекстных ограничений для баз данных Выполнил: Жолудев В. Научный руководитель: Терехов А.Н. Рецензент: Иванов А.Н.
Работа выполнена в рамках проекта "Информационные технологии в управлении образованием" 1С: ХроноГраф 2.5 Последовательность создания в программе «1С:
Ген-ориентированные базы данных и геномные браузеры Что такое ген-ориентированные базы данных? Самые простые примеры таких БД Примеры геном-ориентированных.
Apache Harmony или как сделать курсовую работу в рамках этого проекта Фурсов Михаил.
Сравнение различных методов хранения XML в реляционных базах данных и в разных системах. Нгуен Тхань Хуен- 545 группа Руководитель : Б.А. Новиков Рецензент:
Структура белка Как предсказать вторичную структуру белка? Как найти и анализировать пространственную структуру, если она известна? Что можно делать, если.
"The European Molecular Biology Open Software Suite"
Оптимизация Just – in - time компилятора методом профилирования значений Соколов Андрей Владимирович, ФФ НГУ, 3 курс, Руководитель:
Симулятор квантовых вычислений Выполнил: Гедерцев А.С. Руководитель, д.ф.-м.н., профессор: Граничин О.Н.
Сервисы – специально для научных исследований:  Удаленный доступ и простой поиск, обеспечивающий быстрый доступ к нужной книге  Рефераты на каждую книгу.
Нахождение ориджинов в последовательности нуклеотидов Выполнил: Ромашкин Амир, 445 гр. Руководитель: Профессор АФТУ, Порозов Юрий.
Кураева Екатерина Анатольевна, заместитель директора по УВР, учитель математики сш № 29.
Swiss-Prot – одна из первых баз данных белковых последовательностей, “gold standard” белковой аннотации. Аннотация выполнена вручную группой профессиональных.
Gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta.
BioUML интегрированная расширяемая среда для моделирования биологических систем Biosoft.Ru Лабоработория Биоинформатики КТИ ВТ СО РАН
ИЗУЧЕНИЕ ПОЧВЕННОГО ОРГАНИЧЕСКОГО ВЕЩЕСТВА МЕТОДАМИ ЭЛЕКТРОФОРЕЗА И ХРОМАТОГРАФИИ ВЫСОКОГО ДАВЛЕНИЯ Матыченков В.В. *, Бочарникова Е.А. ** *Институт фундаментальных.
Формы в HTML. Элемент FORM Элемент уровня «блок» Управляющие элементы Просто текст Атрибуты: action – url обработчика method – post или get enctype –
Разработка алгоритмов распознавания текста
Демидов А.В г. Операционные системы Лекция 4 Работа с файлами.
Геоинформационные системы Чернышов Алексей Акимович.
Учитель биологии ГОУ ЦО №1470 Селезнёва И.Г.. « Рост, размножение, подвижность, возбудимость, способность реагировать на изменения внешней среды – все.
Как найти последовательность, кодирующую Ваш белок? Как найти последовательность ДНК, кодирующую Ваш белок: – Ссылки из белковых баз данных – Прямой поиск.
Cравнение биологических последовательностей А.Б.Рахманинова, 2008.
9 октября 2004 Поиск статических изображений по содержанию: использование текстового запроса Наталья Васильева
Множественное выравнивание С.А.Спирин, весна
Инициативный проект Российского семинара по оценке методов информационного поиска (РОМИП)
Что такое биоинформатика? Банк SwissProt С.А.Спирин 7, 8,10 февраля 2006 г., ФББ МГУ.
Классификация, кластеризация и поиск изображений на основе низкоуровневых характеристик Наталья Васильева Руководитель: Новиков Б. А.
XML Схемы XML документов. XML Schema созданая Microsoft позволяет избавиться от DTD блоков. Основа – использование пространств имен и очень точная типизация.
Microsoft TechDayshttp:// Александр Шаповал Эксперт по стратегическим технологиям
The PIR-PSD current release 78.03, November 24, 2003, contains entries. 65 proteins The PIR was established in 1984 by the National Biomedical.
1 R E F R I G E R A T I O N A N D A I R C O N D I T I O N I N G Как обновить программное обеспечение в AK-SC 255.
КРУПНЕЙШАЯ ТЕХНИЧЕСКАЯ КОНФЕРЕНЦИЯ MICROSOFT В УКРАИНЕ Metro приложения: работа с данными Краковецкий Александр, MVP/RD/PhD. DevRain Solutions.
Человеко-машинное взаимодействие Лекция 6 Мерзлякова Екатерина Юрьевна к.т.н. доцент ПМиК.
Gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta.
Jokes Jokes Jokes Teacher: Where's your text book? Student: At home. Teacher: What's it doing there? Student: Having a.
Gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta.
Presentation transcript:

Банки информации в молекулярной биологии С.А.Спирин 11/III – 2006

Пример информации последовательность ДНК gatcaacactacttgacttcaagacttaccataaagaaaactatagtgtggtattggcaa aagacaagacaaatagatcaacataacaaaataaagggccatgaaatagacccatatagt caattgatttttgacaaagaaggattggcaatagaatggggtaaagatagtcttctcaac aaacggtaccagaatgactgaatacccacatgcaaaaagaaaaagaaatgaacctagaca cagatcttatacagttcacaaaaatgtaactcaaaatgaatcatagacctaaatataata ttcaagactataaaaccctaaaatataacataggggaaaatctaaacaatcttgagtttg ttaatgactttttagatacaataccaaaggcaggatccaggaaagaatcgataagctggg cttcattaaaattaaaatatttctgctctatgaagccactgtcaagagaaggaaaaggca agccatagactgggagaaaatatttacaaaagacatacatgataaaggactattatccaa aatgtacaaagaactctaaaaaacttaacaataagaaaacaaacccaactaaaaactggg ccaaagatcttaacagatatattaccaaagaagatacacagatggcaaataagcataaaa agattaaccacatcatacgtcattaagaaattgcaaattaaaacaacaatgagacaccat tatacacctagtagaatgacccaaatccagattactgacataatcaaatgctgacaagga tgtggagaaacaggaactgccattcttgggttgtgggaatgccaaatggtatgcctgctt tggaagacagcttggtggtttcttacaacactaagcatactcttaccaaaagatcgagca

Вообще-то ДНК — это молекула... Примеры молекул: Сульфат Фенол Фосфат тиамина (атомы водорода не показаны)

Молекула ДНК A C G TA C G T C N O PC N O P

Одну нить ДНК можно условно обозначить последовательностью букв CGCCATAAATCAC

Детали строения молекул в микроскоп не видны! ~ 0,00001 мм Существуют сложные и дорогие методы расшифровки структуры молекул

В конце 1970-х годов был открыт относительно быстрый и дешёвый метод расшифровки последовательности оснований в ДНК Организм ДНК «в пробирке»Последовательность выделение секвенирование...CGCCATAAATCAC...

Последовательность ДНК (пример) gatcaacactacttgacttcaagacttaccataaagaaaactatagtgtggtattggcaa aagacaagacaaatagatcaacataacaaaataaagggccatgaaatagacccatatagt caattgatttttgacaaagaaggattggcaatagaatggggtaaagatagtcttctcaac aaacggtaccagaatgactgaatacccacatgcaaaaagaaaaagaaatgaacctagaca cagatcttatacagttcacaaaaatgtaactcaaaatgaatcatagacctaaatataata ttcaagactataaaaccctaaaatataacataggggaaaatctaaacaatcttgagtttg ttaatgactttttagatacaataccaaaggcaggatccaggaaagaatcgataagctggg cttcattaaaattaaaatatttctgctctatgaagccactgtcaagagaaggaaaaggca agccatagactgggagaaaatatttacaaaagacatacatgataaaggactattatccaa aatgtacaaagaactctaaaaaacttaacaataagaaaacaaacccaactaaaaactggg ccaaagatcttaacagatatattaccaaagaagatacacagatggcaaataagcataaaa agattaaccacatcatacgtcattaagaaattgcaaattaaaacaacaatgagacaccat tatacacctagtagaatgacccaaatccagattactgacataatcaaatgctgacaagga tgtggagaaacaggaactgccattcttgggttgtgggaatgccaaatggtatgcctgctt tggaagacagcttggtggtttcttacaacactaagcatactcttaccaaaagatcgagca

Для хранения все возрастающей информации о последовательностях ДНК в 1982 году был основан GenBank GenBank — хранилище последовательностей нуклеиновых кислот в виде компьютерных файлов Объем GenBank’а: 1982: букв в 606 последовательностях 1992: букв в последовательностях 2002: букв в последовательностях 2004: букв в последовательностях 2005: букв в последовательностях (из ~ организмов) Размер файлов — 196 Gb

International Nucleotide Sequence Database Collaboration GenBank (США) EMBL (Европа) DDBJ (Япония) Ежедневный обмен данными

Структура документа GenBank’а Описание Последовательность

GenBank — архивная база данных Один эксперимент — один документ Зачем в документе GenBank’а описательная часть? Ответы: 1) чтобы пользователь банка мог найти интересующую его последовательность; 2) для хранения дополнительной информации (откуда ДНК, кто проводил эксперимент по секвенированию, биологическая роль данной последовательности и т.д.)

Основная проблема больших банков данных — быстрый поиск нужной информации Для удобства пользования описательная часть документа GenBank разбита на так называемые поля (“fields”) Общий принцип: любая база данных состоит, с одной стороны, из записей (или «документов»), а с другой стороны, из полей. Каждая запись есть наполнение содержанием нескольких (или всех) полей. Пример базы данных — телефонная книга. Записи соответствуют абонентам. Примеры полей: фамилия, инициалы, адрес, телефон.

Основная проблема больших банков данных — быстрый поиск нужной информации Как найти интересующую нас последовательность в GenBank’е? Существуют специальные компьютерные программы (например, SRS или Entrez), предназначенные для поиска по ключевым словам в банках последовательностей. Пользователь указывает программе, по каким полям нужно искать и какое слово (или слова). Программа выдаёт список записей банка, в которых указанные слова встретились в указанных полях.

Примеры задания на поиск “gene” в поле DEFINITION “yeast” в поле ORGANISM “Ivanov” в поле AUTHORS “yeast” в поле ORGANISM И “tRNA” в поле DEFINITION “mouse” ИЛИ “rat” в поле ORGANISM

Как искать? Перебрать все 52 млн. записей, и в каждой посмотреть, есть ли в соответствующем поле заданное слово. Заранее создать индексную таблицу каждого из полей и при каждом запросе обращаться к ней Это долго даже современному компьютеру!

Мораль: при создании программ для работы с биологическими базами данных необходимо использовать достижения теории алгоритмов

Что такое биоинформатика? Исследование информационных процессов в биологических системах (клетках, органах, организме, популяции). Изучение и внедрение в компьютерную науку «биологических» методов анализа информации (нейросетей, генетических алгоритмов, нечеткой логики и др.). Применение компьютерных методов для решения биологических задач. Телепатия, парапсихология, информационные поля и т.п. ?

Что такое биоинформатика? Исследование информационных процессов в биологических системах (клетках, органах, организме, популяции). Изучение и внедрение в компьютерную науку «биологических» методов анализа информации (нейросетей, генетических алгоритмов, нечеткой логики и др.). Применение компьютерных методов для решения биологических задач. Телепатия, парапсихология, информационные поля и т.п.

Биоинформатика и её связи с другими дисциплинами Биоинформатика (компьютерная молекулярная биология) Молекулярная биология Информатика (в том числе теория алгоритмов) Теория вероятностей и математическая статистика

Основные объекты современной биоинформатики Последовательности нуклеиновых кислот Последовательности белков Пространственные структуры макромолекул (белков, ДНК и РНК) и их комплексов (друг с другом и с малыми молекулами)

Что такое белок Пространственная структура RRNFSKQASE ILNEYFYSHL SNPYPSEEAK EELARKCGIT VSQVSNWFGN KRIRYKKNI Последовательность

Банки структурной биологической информации GenBank, EMBL, DDBJ RefSeq Архивные базы последовательностей нуклеиновых кислот Автоматическая база различных последовательностей НК SwissProt Курируемая база последовательностей белков TrEMBL Автоматическая база предсказаний последовательностей белков PDB Архивная база пространственных структур макромолекул И многие другие...