Биоинформатика

ru en cn

с начала прошло: 1003 д. 20:00
страница обновлена: 04.12.2022 09:29

Биоинформатика

Темы занятий

  • Общее введение в молекулярную биологию, понятия гена/РНК/белка. Постановка и обсуждение проблемы: сравнение биологических строк. Обсуждение границ применимости расстояний Хэмминга, Жаккара, Левенштейна. Использование вероятностной модели для определения расстояния. ДЗ на определение наименьших расстояний Левенштейна по набору белков, составление вероятностной модели замен на основе выравнивания того же набора белков, определение чувствительности и специфичности «простого» расстояния Левенштейна по сравнению с использованием вероятностной модели.

  • Понятия матрицы весов (замен), выравнивания последовательностей. Обсуждение способов построения матрицы весов. Описание существующих подходов. Проблема выравнивания, обсуждение предложенных алгоритмов. Использование динамического программирования в выравнивании. Обсуждение проблем (локальные и глобальные выравнивания, схемы штрафов за разрывы, вычислительная сложность, оценка качества) данного подхода и описание существующих решений на примере BLAST. ДЗ на составление весовой матрицы, реализация выравнивания с динамическим программированием, влияние линейной и аффинной функции штрафов за разрывы на выравнивание.

  • Краткое описание понятия белковых и нуклеотидных доменов. Проблема неточного поиска подстроки. Обсуждение предложенных решений. Использование цепей Маркова и скрытых марковских моделей на примере поиска CpG островков в последовательности ДНК. Обсуждение проблем дешифровки и численной устойчивости HMM.

  • Трансформационные грамматики и использование их для анализа последовательностей. Обсуждение задачи моделирования вторичной структуры РНК. Использование ВКСГ для решения. Обсуждение алгоритмов для решения задач выравнивания, оценки и обучения. ДЗ на модификации грамматик.

  • Вводные по задаче сборке геномов, в том числе краткое описание подходов для чтения нуклеотидных последовательностей (секвенировани). Обсуждение решений и их минусов. Использование графов де Брюйна для решения.

  • Краткое об активности генов (экспрессии), способах оценки. Обсуждение алгоритмов подсчета числа транскриптов каждого гена, основанные на выравнивании и нет. Постановка и обсуждение задачи о сравнении экспрессии генов в двух образцах, разные подходы к нормализации. Обсуждение задачи оценки относительной экспрессии генов и способов оценки доверия (как отличить действительное изменение экспрессии). Поправка на множественное сравнение.

  • Тут бы я хотел описать крайне интересную на мой взгляд задачу деконволюции данных по экспрессии генов с ткани, имеющей гетерогенный клеточный состав, так, чтобы получить значения экспрессии для каждого отдельного типа клеток. Задача и решение описано в статье Zaitsev et al.

Дальневосточный федеральный университет