Пятое занятие факультатива

В прошедшую пятницу прошло пятое занятие по биоинформатике в рамках нашего кафедрального факультатива.
Присутствовало 16 слушателей.

В первой половине лекционной части мы разобрали дополнительные возможностям менеджера задач Slurm и команды для работы с программными модулями на кластере, завершив базовый подготовительный этап нашего факультатива.

Затем мы начали подробно разбирать одну из стандартных биоинформатических задач - выравнивание прочтений на референсный геном и определение генетических вариантов. В профессиональном сленге такую задачу иногда называют "коллингом" (от англ. SNP calling). Мы детально обсудили каждый этап этой процедуры - оценку качества исходных прочтений, выравнивание прочтений на референсный геном, фильтрацию полученных прочтений по качеству картирования и длине прочтения, добавление групп прочтений (RG - read groups) в полученный .bam файл, маркирование дупликаций, определение генетических вариантов (собственно, "коллинг") и фильтрацию полученных результатов. Завершающим результатом нашего скрипта было получение консенсусной последовательности митохондриальной ДНК и определение гаплогруппы.

На этом занятии мы впервые работали с типичным биоинформатическим скриптом. В этом скрипте было много новых операций, незнакомых параметров и, скорее всего, многим слушателям он показался достаточно сложным. Я открою небольшой секрет - любой самый сложный скрипт состоит из последовательности более простых операций. В биоинформатике мы постоянно работаем с такими скриптами, потому что постоянно осваиваем что-то новое. Универсальный подход к разбору и освоению любого самого сложного скрипта заключается в разделении его на этапы и разборе каждого этапа в отдельности. Эти этапы также можно разделять на фрагменты, если необходимо. В программировании такой подход называется рекурсивным.

На следующем занятии мы продолжим работу с этим скриптом и будем изучать полученные файлы.