22.06.2015Высокопроизводительные вычисления в биоинформатике 1.

Slides:



Advertisements
Similar presentations
Выпускная квалификационная работа на тему: «Применение интернет-технологий как фактор повышения эффективности функционирования организации (на примере.
Advertisements

« Стохастические методы оптимизации работы вычислительных систем» лекция профессора Граничина Олега Николаевича для стажеров лаборатории Системного программирования.
Банки информации в молекулярной биологии С.А.Спирин 11/III – 2006.
Биоинформатика Исследование информационных процессов в биологических системах (клетках, органах, организме, популяции). Изучение и внедрение в компьютерную.
PowerPoint Presentation for Dennis, Wixom & Tegarden Systems Analysis and Design Copyright 2001 © John Wiley & Sons, Inc. All rights reserved. Slide 1.
Поиск оптимального набора параметров оптимизаций компилятора Брусенцов Леонид Евгеньевич студент 4 курса ФИТ НГУ Руководители:Илья.
Автоматическая генерация кода программ с явным выделением состояний Канжелев С.Ю. магистрант СПбГУ ИТМО Шалыто А.А. доктор технических наук профессор СПбГУ.
Дипломная работа Ивановой О.О., группа 545 Научный руководитель: д. ф.-м. н., профессор Терехов А.Н. Генерация кода по диаграмме активностей.
Системы отбора. Условные обозначения (1) (2) (3) (4) (5) (6) (7) Математическое моделирование процессов отбора2.
«Множество и мы» ЭЛЕКТИВНЫЙ КУРС ДЛЯ 9 КЛАССОВ Автор : учитель математики Хабирова Зульфия Габдулловна.
Генная инженерия.
Веремьёва Е. И.. Радиобиология — это самостоятельная комплексная, фундаментальная наука, состоящая из многих научных направлений, изучающая действие ионизирующих.
НОРМАТИВНО – ПРАВОВЫЕ И ОРГАНИЗАЦИОННО- ТЕХНИЧЕСКИЕ ФАКТОРЫ РЕАЛИЗАЦИИ СЕТИ ЦИФРОВОГО ТЕЛЕВЕЩАНИЯ В РОССИЙСКОЙ ФЕДЕРАЦИИ Демьянов Александр Иванович –
Разработка технологии взаимодействия гетерогенных систем с использованием метапрограммирования Константинов Александр, 545 группа Научный руководитель.
ПРОФИЛЬ КОМПАНИИ SAP. ©2010 SAP AG. Все права защищены. / Стр. ‹#› ШТАТ КОМПАНИИ SAP НАСЧИТЫВАЕТ СЕГОДНЯ СОТРУДНИКОВ ПО ВСЕМУ МИРУ.
Миллер Дмитрий, 545 группа Научный руководитель: д.ф.-м.н., профессор, А.Н.Терехов Рецензент: к.ф.-м.н, доцент, А.Н. Иванов.
Сохранение суммы фазовых координат. Важный частный случай представляют системы, в которых в течение всего процесса сохраняется постоянной сумма значений.
Создание сервиса синхронизации разнородных баз данных Допущена к защите зав. кафедрой: д.ф.м.н., профессор Терехов А.Н. Научный руководитель: доцент Графеева.
Обзор последних достижений биометрических методов аутентификации РусКрипто 2005.
1 СПбГУ ИТМО, кафедра Компьютерных Технологий ПРИМЕНЕНИЕ АВТОМАТНОГО ПРОГРАММИРОВАНИЯ ДЛЯ ПОСТРОЕНИЯ СИСТЕМ УПРАВЛЕНИЯ БИЗНЕС- ПРОЦЕССАМИ Евгений Андреевич.
Инновационные разработки в области новых методов лечения заболеваний Проф. О.С.Медведев ФФМ, МГУ им. М.В.Ломоносова.
Функции IV. Биоинформатические ресурсы для работы с мембранными белками А.Б.Рахманинова (3 и 4 апреля 2007г.)
Адаптивный метод распределения SPMD-заданий в грид Паньшенсков Михаил, 545 группа Научный руководитель: Лукичев А.С. Рецензент: Демьянович Ю.К июня.
Блок 3. Семейства белков I. Множественное выравнивание Первый курс, весна 2008, А.Б.Рахманинова.
ОНТОЛОГИИ В БИОИНФОРМАТИКЕ Подколодный Н.Л. ИВМиМГ СО РАН ИЦиГ СО РАН.
Разработка программного обеспечения (Software Engineering) Часть 2. Создание ПО.
1 Генерация контекстных ограничений для баз данных Выполнил: Жолудев В. Научный руководитель: Терехов А.Н. Рецензент: Иванов А.Н.
ERAMIS “Network Europe – Russia – Asia of Masters in Informatics as a Second competence” (ERAMIS) «Магистратура по информатике как вторая компетенция для.
Ген-ориентированные базы данных и геномные браузеры Что такое ген-ориентированные базы данных? Самые простые примеры таких БД Примеры геном-ориентированных.
Сравнение различных методов хранения XML в реляционных базах данных и в разных системах. Нгуен Тхань Хуен- 545 группа Руководитель : Б.А. Новиков Рецензент:
Структура белка Как предсказать вторичную структуру белка? Как найти и анализировать пространственную структуру, если она известна? Что можно делать, если.
А.Б. Рахманинова (13 апреля 2010 г.) Факультет Биоинженерии и Биоинформатики, 2 курс, весенний семестр Функции Мембранные белки. Транспортные белки.
 Нужно много различных протоколов связи  Каждый из них может реализовываться на разных платформах Современные сети Много устройств, компьютеров и сетей.
Сопоставление полигональных объектов на основе независимой фрагментации контуров Выполнил: Ю. М. Плотников Научный руководитель: канд. ф.-м. наук К. В.
EDCWiki Electronic Document Circulation using wiki Система электронного документооборота на основе wiki Участники: Кузьмин Константин, Цыцулин Виталий.
Д.А. Равчеев (14 апреля 2009 г.) Факультет Биоинженерии и Биоинформатики, 2 курс, весенний семестр Функции Трансмембранные белки.
Верификация автоматных программ Ремизов А.О., д.т.н., проф. Шалыто А.А.
ЭКОНОМИЯ В ШКОЛЕ ЭКОНОМИКИ: ПРАГМАТИЧНЫЙ ВЗГЛЯД НА ЭЛЕКТРОННЫЕ РЕСУРСЫ В БИБЛИОТЕКЕ ГУ-ВШЭ Владимир Писляков нач. отдела информационных систем и электронных.
Нахождение ориджинов в последовательности нуклеотидов Выполнил: Ромашкин Амир, 445 гр. Руководитель: Профессор АФТУ, Порозов Юрий.
Swiss-Prot – одна из первых баз данных белковых последовательностей, “gold standard” белковой аннотации. Аннотация выполнена вручную группой профессиональных.
Анализ и Проектирование качественных приложений Презентация по книге Крэга Лармана.
Сервис описания дискретных динамических систем на основе рекуррентных алгоритмов стохастической аппроксимации и подобных им Александр Вахитов научный руководитель.
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ Математико-механический факультет Кафедра системного программирования Автоматизация выбора оптимальной.
BioUML интегрированная расширяемая среда для моделирования биологических систем Biosoft.Ru Лабоработория Биоинформатики КТИ ВТ СО РАН
Разработка алгоритмов распознавания текста
Предметно-ориентированное моделирование приложений для платформы Android Никонова Ольга СПбГУ Научный руководитель Брыксин Т.А.
Геоинформационные системы Чернышов Алексей Акимович.
Методы интерактивной визуализации динамики жидких и газообразных сред Костикова Елена Юрьевна, 521 гр. Научный руководитель: Игнатенко Алексей Викторович.
Как найти последовательность, кодирующую Ваш белок? Как найти последовательность ДНК, кодирующую Ваш белок: – Ссылки из белковых баз данных – Прямой поиск.
Cравнение биологических последовательностей А.Б.Рахманинова, 2008.
Место человека в интеллектуальной техносреде В.В. Бушуев, д.т.н., проф., Генеральный директор Института энергетической стратегии ЦМТ, г.
Динамическая модель взаимодействия аминокислотных остатков с границей раздела фаз МГУ им. М.В. Ломоносова Физический Факультет кафедра физики полимеров.
9 октября 2004 Поиск статических изображений по содержанию: использование текстового запроса Наталья Васильева
Мультиагентные системы и их применение в сетевых задачах Выполнил: студент 545 гр. Г.И. Вольфсон Научный руководитель: д. ф.-м. н. А.Н.Терехов 2007.
Итоги реализации инновационной образовательной программы в г.г.
Опыт разработки отраслевых регламентов по защите подрастающего поколения от угроз в Интернете на примере трехсторонней рабочей группы национальной доменной.
Технология разработки имитационных моделей аграрных систем (с) Н.М. Светлов, Лекция 1. Технология разработки имитационных моделей аграрных систем.
Множественное выравнивание С.А.Спирин, весна
___________________________ Грязнов В.Б. Директор по Информационным технологиям ОАО «Мосэнерго»
Что такое биоинформатика? Банк SwissProt С.А.Спирин 7, 8,10 февраля 2006 г., ФББ МГУ.
Классификация, кластеризация и поиск изображений на основе низкоуровневых характеристик Наталья Васильева Руководитель: Новиков Б. А.
Исследование возможностей сервисной шины SonicMQ Дипломная работа студентки 545 группы Комольцевой Дарьи Владимировны Научный руководитель: Графеева Н.Г.
BioUML - интегрированная платформа для совместных исследований в области биоинформатики и системной биологии Колпаков Ф.А. 1,2, Толстых.
Эффективность проведения мультимедийных уроков биологии, физики, химии, географии.
Cloud технологии и серверные решения для разработки мобильных приложений Построение Cloud и серверных решений как backend для мобильных приложений Mobile.
О понятийном аппарате Национальной системы квалификаций Российской Федерации Есенина Екатерина Юрьевна, ведущий научный сотрудник Центра профессионального.
Gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta.
Институт систем энергетики им Л.А.Мелентьева СО РАН ИТ-ИНФРАСТРУКТУРА НАУЧНЫХ ИССЛЕДОВАНИЙ КАК ОСНОВА ИНФОРМАЦИОННОГО ОБЕСПЕЧЕНИЯ НАУЧНО-ОБРАЗОВАТЕЛЬНОГО.
Mechanical Properties of DNA Local Structure: Ultrasound Studies Dmitry Yu. Nechipurenko, Mikhail V. Golovkin, Sergej L. Grokhovsky, Irina А. Il'icheva,
Gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta.
Presentation transcript:

Высокопроизводительные вычисления в биоинформатике 1

Высокопроизводительные вычисления в биоинформатике 2 Особенности предметной области 1.Большой темп накопления знаний. Появление новых высокопроизводительных экспериментальных установок. 2.Большой темп роста числа гетерогенных источников данных - баз данных. 3.Тенденция к усложнению моделей предметной области. 4.Расширение области применения молекулярно-генетических знаний: биомедицина, фармакология, нанобиоинженерия и т.д. 5.Необходимость решать задачи, требующие больших вычислительных ресурсов. 6.Необходимость решать задачи, требующие интеграции больших объемов гетерогенных источников данных.

Высокопроизводительные вычисления в биоинформатике 3 Системная биология Цель - изучение организации и механизмов развития и функционирования живых систем на основе информации, закодированной в их геномах, в ходе их взаимодействия с окружающей средой. Описание в базах данных и интеграция огромных объемов гетерогенной экспериментальной информации, характеризующей живые системы на различных уровнях их структурно-функциональной организации Крупномасштабный анализ экспериментальных данных Построение математических моделей организации и функционирования живых систем Предсказание новых особенностей организации и функционирования живых систем Планирование экспериментов по проверке результатов предсказания Проведение экспериментов и получение новых данных и знаний СИСТЕМНАЯ БИОЛОГИЯ ВОЗНИКЛА, КОГДА ОНА СТАЛА ПРЕДСКАЗАТЕЛЬНОЙ НАУКОЙ

Высокопроизводительные вычисления в биоинформатике 4 Системная биология – интегративная наука Э К С П Е Р И М Е Н Т А Л Ь Н Ы Е И С С Л Е Д О В А Н И Я Биология Медицина Физика МатематикаИнформатика Химия Биотехнология

Высокопроизводительные вычисления в биоинформатике 5 Экспериментально-вычислительная база системной биологии Кластер «Системная биология» Новосибирского научного центра СО РАН Геномика: автоматический секвенатор Протеомика: массовый анализ белков и метаболитов ТРАНСКРИПТОМИКА: производство биочипов высокой плотности и анализ профилей экспрессии генов Высокопроизводительные вычислительные Клеточная биология: лазерный сканирующий микроскоп LSM510 META Прижизненная томография экспериментальных животных

Высокопроизводительные вычисления в биоинформатике 6 Объемы молекулярно-биологических данных и комбинаторная сложность задач биоинформатики Источник данныхОбъем данныхЗадачи Секвенированные последовательности ДНК ~40 млн. последовательностей, пар оснований Функциональная аннотация Белковые последовательности ~ последовательностей (~300 аминокислот каждая) Сравнительный анализ. Выявление консервативных мотивов Структуры макромолекул структур (~3000 атомных координат каждая) Предсказание, выравнивание, измерение геометрии, докинг ГеномыОколо 1200 геномов прокариот, более 160 геномов эукариот Сборка полных геномов; Функциональная аннотация; Сравнительный анализ Экспрессия генов в различных тканях, стадиях развития, состояний организма и т.д. Сотни тысяч образцов c тысячами вариантов измерений для десятков тысяч генов. ~10 13 измерений. Анализ механизмов регуляции коэкспрессирующихся генов. Связь с последовательностями, структурными и биохимическими данными. SNP (однонуклеотидные мутации в ДНК) Только одна база данных dbSNP содержит информацию о 10 8 мутациях в 23 геномах. Анализ связи с заболеваниями Молекулярные взаимодействия, метаболические пути и генные сети Более 10 6 молекулярных взаимодействий описано в публикациях. Более ста тысяч метаболических путей и генных сетей представлено в базах данных. Моделирование молекулярно- генетических процессов и систем ПубликацииДесятки миллионов публикаций Поиск и извлечение знаний

Высокопроизводительные вычисления в биоинформатике 7 Список некоторых наиболее затратных задач биоинформатики и потребности в вычислительных и информационных ресурсах Ассемблирование полных геномов Реконструкция последовательности полного генома человека, животных или растений. 10 TFlops30 TB of trace files per genome Анализ полных геномовСравнительный анализ полных геномов 10 TFlops5 TB Предсказание структуры белка Анализ всех белков бактериального генома за одни сутки 100 TFlops10 TB Молекулярная динамикаМоделирование ДНК-белковых взаимодействий (20000 атомов, до 1 мс) 100 TFlops 30 TB of trace files Молекулярная динамика (с учетом квантовомеханических взаимодействий) Моделирование реакции для фермент активного сайта (200 атомов, 1 нс) за одни сутки TFlops 100s TB of trace files Докинг белковых молекулМоделирование взаимодействия белок-леганд. Предсказание функции белка. Поиск новых лекарственных средств. >10 TFlops5 TB

Высокопроизводительные вычисления в биоинформатике 8 Анализ потребности в Супервычислениях Клеточные процессы Клеточные сообщества Экологические процессы Метаболические пути Необходимые вычислительные ресурсы Уровни описания биосистем Предсказание структуры белка Сравнение геномов Моделирование динамики белковых комплексов Молекулярный докинг и моделирование взаимодействия Сравнительный анализ белков Моделирование генных сетей Tflops Моделирование клетки Моделирование эволюционных процессов Макромоделирование экосистем Моделирование метаболических путей Молекулярная машина Асемблирование генома Макромолекулы Широкомасштабное моделирование экосистем Моделирование динамики паразитарной инфекции на молекулярно-генетическом уровне Моделирование органа Макромоделирование микробных сообществ

Технологии ускорения решения задач 2. Использование специальных процессоров: FPGA (Field Programmable Gate Array) MPPA (Massively Parallel Processor Array) GPU (Graphics Processing Unit) 1. Использование высокопроизводительных вычислительных кластеров или суперкомпьютеров: Распараллеливание по данным Распараллеливание по процессам 3. Использование гибридных вычислительных систем, объединяющих в вычислительных узлах CPU вместе со спецпроцессорами, GPU или FPGA. Пример: IBM Roadrunner. Процессор PowerXCell 8i.

Высокопроизводительные вычисления в биоинформатике 10 GPU демонстрируют хорошие результаты при: 1.Параллельной обработке данных Когда одна и та же последовательность действий, применяется к большому объёму данных 2.Расчетах с высокой плотностью арифметики Когда велико отношение числа арифметических инструкций к числу обращений к памяти Когда эффективно GPU? Одни и те же вычисления означают меньшие требования к управлению исполнением (flow control) Высокая плотность арифметики и большой объём данных означают возможность покрытия латентности памяти вычислениями (вместо больших кэшей на CPU)

Генетический алгоритм оптимизации. Монте-Карло ( ) Анализ текстов, поиск регулярных выражений. (10-35). Сравнительная геномика. Филогения (15) Smith Waterman, BLAST, ClustalW (30-70) Скрытые марковские процессы. HMMer (25-30) Множественное выравнивание (30). распознавание образов(100), К-ближайших соседей (470), SVM(150), Нейросети (15); Алгоритмы на графах (20) Дискретное моделирование биологических систем (200) Молекулярная динамика ( ), Молекулярный докинг (16) Молекулярный фолдинг (100) Медицинская томография (300) Анализ изображений (100) Решение систем линейных уравнений (50) Сингулярная декомпозиция (60) Примеры приложений GPU CUDA и их эффективность

Благодарю за внимание!

Высокопроизводительные вычисления в биоинформатике 14 1.Компьютерный анализ результатов секвенирования и ассемблирование полноразмерных геномов. 2.Структурно-функциональная аннотация полногеномных последовательностей прокариот и эукариот. 3.Сравнительный анализ полногеномных последовательностей. 4.Молекулярная эволюция. Филогения. 5.Широкомасштабный компьютерный анализ протеомов. 6.Компьютерный анализ и моделирование структурно-функциональной организации ДНК, РНК, белков и их комплексов. 7.Функциональная аннотация белковых макромолекул. Молекулярный скрининг. Молекулярный докинг и молекулярный дизайн медицинских препаратов. 8.Дизайн самоорганизующихся ДНК/РНК наноструктур. 9.Молекулярная эпидемиология. Анализ полиморфизмов. 10.Компьютерное моделирование сложных молекулярно-генетических систем и процессов в норме и патологии. 11.Компьютерно-информационная поддержка экспериментального дизайна искусственных бактериальных молекулярно-генетических конструкций. 12.Компьютерный анализ изображений. Классы задач, решаемых в СО РАН

Высокопроизводительные вычисления в биоинформатике 15 CUDA™ Toolkit – среда разработки для GPU, основанная на языке C  CUDA (Compute Unified Device Architecture) -- это технология от компании NVidia, предназначенная для разработки приложений для массивно- параллельных вычислительных устройств (в первую очередь для GPU начиная с GeForce 8800, а текже Quadro и Tesla.  Основными плюсами CUDA являются ее бесплатность (SDK для всех основных платформ свободно скачивается с developer.nvidia.com), простота (программирование ведется на "расширенном С") и гибкость.  GPU – сопроцессор для CPU (хоста)  У GPU есть собственная память  GPU с CUDA работает либо как гибкий потоковый процессор, где тысячи вычислительных программ, называемых потоками, или threads, вместе решают сложные задачи, либо как потоковый процессор в специфических приложениях, например, для вывода изображения, где потоки не связаны между собой.  GPU способен одновременно обрабатывать множество потоков данных одним и тем же алгоритмом  Для осуществления расчётов при помощи GPU хост должен осуществить запуск вычислительного ядра, которое определяет конфигурацию GPU в вычислениях и способ алгоритм получения.  Процессы GPU (в отличие от CPU) очень просты и многочисленны (~ 1000 для полной загрузки GPU)