Блог
Глеб Доценко
29 апреля 2025 12:00
Прошло одиннадцатое (завершающее) занятие по биоинформатике в рамках нашего кафедрального факультатива.
Присутствовало 13 слушателей.
Подробнее...
В прошедшую пятницу прошло одиннадцатое (завершающее) занятие по факультативу по биоинформатике. На лекции мы подробно разобрали создание наиболее востребованных типов диаграмм в R, которые чаще всего используются при визуализации данных.
На практикуме мы потренировались в создании этих типов диаграмм и их форматировании. Мы поработали с двумерными и одномерными диаграммами рассеяния, диаграммами размахов (коробчатыми диаграммами, боксплотами), диаграммами распределения плотности вероятности, контурными диаграммами распределения плотности вероятности, столбиковыми диаграммами с накоплением и без накопления, круговыми диаграммами и тепловыми картами.
Это занятие нашего факультатива было завершающим в нашем курсе. Мы благодарим всех слушателей за активное участие, вопросы и пожелания по дальнейшему развитию курса.
Глеб Доценко
24 апреля 2025 12:00
Прошло десятое занятие по биоинформатике в рамках нашего кафедрального факультатива.
Присутствовало 15 слушателей.
Подробнее...
На прошедшем занятии мы продолжили изучать возможности языка программирования R и освоили работу с табличными данными, с которыми должен уметь работать любой хороший биоинформатик.
Мы разобрали загрузку табличных данных из текстовых файлов и их конвертацию их в различные форматы.
Затем мы подробно разобрали основные функции пакета tidyverse, которые реализует наиболее востребованные преобразования табличных строк и столбцов – фильтрацию, упорядочивание, создание новых строк и колонок, слияние и разбиение таблиц, а также многое другое.
На практической части мы потренировались в применении изученных возможностей для решения типичных задач, возникающих при работе с табличными данными. Например, мы выполнили поиск патогенных мутаций в таблице аннотированных генетических вариантов, которую мы получили на седьмом занятии. Также мы выполнили отбор образцов из обширной базы литературных данных по заданным критериям. В завершающем задании этого практикумы мы реализовали левое объединение двух таблиц по ключу с последующей фильтрацией строк по заданным критериям и их форматированием.
Глеб Доценко
16 апреля 2025 14:00
Прошло девятое занятие по биоинформатике в рамках нашего кафедрального факультатива.
Присутствовало 18 слушателей.
Подробнее...
На прошедшем занятии мы приступили к изучению основ языка программирования R, которым должен владеть каждый хороший биоинформатик.
Мы подробно рассмотрели базовые вопросы, с которых начинается изучение любого языка программирования - синтаксис, правила именования переменных, арифметические и логические операторы, основные типы данных, основные структуры данных и управляющие конструкции.
На практикуме мы использовали R для обработки экспериментальных данных и расчёта стандартных статистических характеристик - среднего, медианы, квартилей, дисперсии, стандартного отклонение и стандартной ошибки. Также мы научились проводить в R стандартные статистические тесты, например, тест Шапиро-Уилка и Стьюдента, и рассчитывать коэффициент корреляции Пирсона и Спирмена.
Глеб Доценко
07 апреля 2025 12:00
Прошло восьмое занятие по биоинформатике в рамках нашего кафедрального факультатива.
Присутствовало 18 слушателей.
Подробнее...
На прошедшем занятии мы подробно разобрали графический интерфейс и функционал геномных браузеров IGV (Integrative Genomics Viewer) и UCSC (University of California, Santa Cruz).
Мы начали с самых простых, но основополагающих вопросов - способов загрузки референсного генома и анализируемых данных, значения цветов прочтений, значения стрелочек и столбчатых диаграмм, отображения генов и др. Затем мы поговорили о функциональных возможностях IGV, например, о том, как сохранять текущую сессию, делать закладки, искать заданную нуклеотидную последовательность, настраивать форматирование прочтений, загружать разные форматы файлов.
Мы также поговорили о геномном браузере Калифорнийский университет в Санта-Крузе (англ. University of California, Santa Cruz, UCSC), его обширных возможностях и о том, как скачивать необходимые треки из этого браузера и загружать их в IGV.
На практикуме мы выполнили поиск различных структурных генетических вариантов (делеции, инсерции, дупликации, инверсии) и изучили, как они выглядят в геномном браузере IGV.
Глеб Доценко
01 апреля 2025 13:00
Прошло седьмое занятие по биоинформатике в рамках нашего кафедрального факультатива.
Присутствовало 16 слушателей.
Подробнее...
На этом занятии мы завершили рассмотрение основных форматов файлов в биоинформатике. Мы разобрали структуру .bam, .vcf, .bed, .bedgraph, .gtf, .gff файлов и подробно поговорили о наиболее важных для практической работы аспектах - например, о правильном задании тегов ридгрупп @RG для корректной работы с .bam файлом, о способах узнать референс и параметры программ, которые применялись для получения .bam файла, об интерпретации генотипа и покрытия для каждого генетического варианта в .vcf файле).
На практической части мы нашли патогенную мутацию, вызывающую врожденную мозжечковую атаксию (congenital cerebellar ataxia) по исходным данным нашей лабораторной статьи https://pubmed.ncbi.nlm.nih.gov/36675067/.
Для выполнения этой задачи мы применили приёмы и команды, с которыми познакомились на прошлых занятиях:
задание переменных для команд
замена ридгрупп .bam файла (это было необходимо, поскольку для исходного файла они оказались заданы некорректно)
фильтрация прочтений по качеству картирования и по длине
определение генетических вариантов (т.н. "снипов", от англ. snp - single nucleotide polymorphism)
фильтрация полученных снипов по качеству
Затем мы выполнили аннотацию полученных генетических вариантов и отфильтровали наиболее вредоносные из них . В полученном небольшом списке мы обнаружили патогенную мутацию chr6:146720646 C>G, вызывающую врожденную мозжечковую атаксию.
Глеб Доценко
28 марта 2025 13:00
Меня часто спрашивают, как стать хорошим биоинформатиком.
На мой взгляд, для этого нужно выполнение двух ключевых моментов:
Владеть биоинформатическими инструментами (т.е. командами, утилитами, пакетами, библиотеками и всем прочим)
Знать предмет биоинформатической работы (т.е. знать форматы файлов, структуру данных и их особенности)
Этого подхода я придерживаюсь на своих занятиях – мы подробно разбираем как инструменты, так и предмет нашей работы.
И конечно, есть много сопутствующих аспектов, которые помогают в достижении этой цели, например, следить за современной литературой (книги и статьи), вести здоровый образ жизни и практиковаться в применении своих знаний (например, помогать коллегам).
Глеб Доценко
24 марта 2025 14:00
Прошло шестое занятие по биоинформатике в рамках нашего кафедрального факультатива.
Присутствовало 17 слушателей.
Подробнее...
Мы продолжили работу с уже знакомым по прошлому занятию скриптом для выполнения выравнивания прочтений на референсный геном и определения генетических вариантов.
На этом занятии мы усовершенствовали этот скрипт и сделали его более универсальным, поместив все изменяемые параметры наших команд (например, файловые пути к исходным и референсным данным, а также параметры фильтрации полученных результатов) в переменные. Теперь, если нам потребуется изменить значение какого-нибудь параметра нашего скрипта (например, поменять референсный геном), мы изменим значение всего одной переменной в начале скрипта и не будем искать и изменять этот параметр во всех командах.
Затем мы разобрали запуск скриптов bash с параметрами, которые задаются в командной строке. Это очень удобно, поскольку позволяет написать единый скрипт для обработки множества файлов и просто указывать пути к этим файлам как параметры скрипта при его запуске. Пользуясь этим приёмом, мы вынесли пути к нашим исходным данным и название образца в три параметра нашего скрипта. Полученный скрипт мы запустили в начале занятия, чтобы он выполнился за время лекции и мы получили результаты для нашего практикума во второй части нашего занятия.
На лекции мы начали разбирать основные форматы файлов в биоинформатике (.fasta, .fastq, .bam, .vcf, .bed, .bedgraph, .gtf, .gff) и их назначение. Мы подробно обсудили форматы .fasta, .fastq и .bam и посмотрели содержимое этих файлов на реальных примерах в терминале.
На практической части мы открыли только что полученные с помощью нашего скрипта файлы .bam и .vcf в геномном браузере IGV и по идентичности митохондриальной ДНК идентифицировали двух родственников по материнской линии.
Глеб Доценко
18 марта 2025 12:00
В прошедшую пятницу прошло пятое занятие по биоинформатике в рамках нашего кафедрального факультатива.
Присутствовало 16 слушателей.
Подробнее...
В первой половине лекционной части мы разобрали дополнительные возможностям менеджера задач Slurm и команды для работы с программными модулями на кластере, завершив базовый подготовительный этап нашего факультатива.
Затем мы начали подробно разбирать одну из стандартных биоинформатических задач - выравнивание прочтений на референсный геном и определение генетических вариантов. В профессиональном сленге такую задачу иногда называют "коллингом" (от англ. SNP calling). Мы детально обсудили каждый этап этой процедуры - оценку качества исходных прочтений, выравнивание прочтений на референсный геном, фильтрацию полученных прочтений по качеству картирования и длине прочтения, добавление групп прочтений (RG - read groups) в полученный .bam файл, маркирование дупликаций, определение генетических вариантов (собственно, "коллинг") и фильтрацию полученных результатов. Завершающим результатом нашего скрипта было получение консенсусной последовательности митохондриальной ДНК и определение гаплогруппы.
На этом занятии мы впервые работали с типичным биоинформатическим скриптом. В этом скрипте было много новых операций, незнакомых параметров и, скорее всего, многим слушателям он показался достаточно сложным. Я открою небольшой секрет - любой самый сложный скрипт состоит из последовательности более простых операций. В биоинформатике мы постоянно работаем с такими скриптами, потому что постоянно осваиваем что-то новое. Универсальный подход к разбору и освоению любого самого сложного скрипта заключается в разделении его на этапы и разборе каждого этапа в отдельности. Эти этапы также можно разделять на фрагменты, если необходимо. В программировании такой подход называется рекурсивным.
На следующем занятии мы продолжим работу с этим скриптом и будем изучать полученные файлы.
Глеб Доценко
10 марта 2025 12:00
В прошедшую пятницу прошло четвёртое занятие по биоинформатике в рамках нашего кафедрального факультатива.
Присутствовало 18 слушателей.
Подробнее...
Мы прошли основы написания скриптов и создали свой первый тестовый скрипт на bash.
По традиции, этот скрипт содержал команду для вывода приветственного сообщения "Hello World!", которое очень часто можно встретить в книгах по программированию. В IT много других традиций, забавных условностей и интересных формальностей, наверное, во многом потому, что программистам нравится придумывать свои правила и делать окружающую реальность более необычной.
Затем мы использовали наш тестовый скрипт, чтобы на практике изучить работу и возможности менеджера задач Slurm. Мы запускали этот скрипт с разными вычислительными ресурсами, поверяли работу отсроченного запуска и запуска при условии выполнения других скриптов. Потом мы попрактиковались в разных способах отмены запущенных работ.
В завершении занятия мы повторили использование часто применяемых команд grep, awk и sort на примере типичной задачи форматирования табличный данных и извлечения строк с нужной информацией средствами bash.
Глеб Доценко
05 марта 2025 12:00
В прошедшую пятницу прошло третье занятие по биоинформатике в рамках кафедрального факультатива.
Присутствовало 16 слушателей.
Подробнее...
Мы продолжили разбирать основные команды Linux, подробно рассмотрели применение команд grep, awk и sort для форматирования и преобразования табличных данных средствами bash.
Эти команды очень удобны, когда нужно быстро выполнить какие-нибудь преобразования строк "на лету" и не хочется привлекать более мощные средства, например, специализированные библиотеки R и Python.
Как это обычно, бывает на первых занятиях, было много общих вопросов по подключению к кластеру, созданию своей директории и перемещению по файловой системе.
Следующее занятие мы начнём с небольшого повторения нескольких задач практикума этого занятия, чтобы на примерах закрепить базовые практические умения по работе в Linux, которые необходимы для дальнейшего обучения.
Глеб Доценко
22 февраля 2025 12:00
Вчера прошло второе занятие по нашему факультативу.
Присутствовало 18 слушателей.
Подробнее...
Мы начали с повторения подключения к кластеру по ssh и sftp и разобрали вопросы, которые всегда возникают на этом этапе.
Затем перешли к рассмотрению основных команд терминала Linux, которые мы повседневно используем в своей работе для выполнения типичных и не очень задач.
Со следующего занятия мы будем больше времени уделять практике и выполнению задач практикума, который у нас традиционно проходит во второй половине наших занятий.
Прикрепляю атмосферное творчество студентов, иногда присутствующее в аудитории :)))
Глеб Доценко
19 февраля 2025 12:00
В прошедшую пятницу, 14 февраля, мы провели первое занятие по факультативу по биоинформатике. Собралось больше 20 человек. В тему нашего первого занятия хочу поделиться с Вами двумя вдохновляющими фрагментами из фильмов.
Подробнее...
В первом эпизоде звучит ответ на вопрос "Что главное?". Каждый отвечает на него на по-разному на разных этапах своей жизни. Я полностью согласен с героем :))
А во втором - герой неожиданно попадает в виртуальную реальность, выполнив незнакомую команду в терминале. Многие из Вас на прошлом занятии впервые подключились к терминалу, и с этого дня для Вас будут открываться новые знания и возможности :)))
Глеб Доценко
06 января 2025 21:00
6 января на кафедре прошёл экзамен по спецкурсу "Компьютерные методы в генетике". Все студенты его успешно сдали. Большинство оценок - отличные.
113 группа этого года достаточно сильная и мотивированная. Всегда приятно делиться знаниями со студентами, которые не только хотят их получить, но задают много вопросов и стараются досконально во всём разобраться. Мне было легко и интересно вести занятия в этой группе, и я с удовольствием приходил в нашу аудиторию по четвергам :)
Вы многому научились за это время, и я уверен, что даже если перед Вами встанет незнакомая биоинформатическая задача, то Вы сможете её решить, потому что одно из важных качеств учёного, которое мы с вами неявно развивали всё это время - это уметь работать там, где работать не учили.
Я желаю Вам удачи на биоинформатических дорогах и во всех сферах Вашей жизни!