Ученые РФ и США создали алгоритм поиска родственных связей между животными

Российские ученые из Университета ИТМО вместе с американскими коллегами создали программу, позволяющую быстро и эффективно находить похожие участки в геномах разных животных. Это необходимо для того, чтобы понять, насколько два вида близки друг к другу и насколько они отошли в ходе эволюции от общего предка.

© ETH Zurich / Jonathan Venetz© ETH Zurich / Jonathan Venetz

Современная генетика – это работа с огромным массивом данных, с которым не справиться без помощи сложных математических алгоритмов. Поэтому разработка специальных программ для обработки информации — не менее важная задача для биоинформатиков, чем расшифровка генома конкретного животного.

На планете Земля обитают миллионы биологических видов. Их огромное разнообразие заложено на генетическом уровне — анатомия, размер, окрас, образ жизни животных определяются их генами.

Между тем вариативность самих генов заметно меньше — их ученые насчитали чуть более 20 тысяч. Получается, что два вида отличаются друг от друга не только набором генов, но и тем, как они расположены друг относительно друга. На языке сравнительной геномики это называется синтения — порядок расположения генов и регуляторных элементов.

«Возьмем, к примеру, гориллу и шимпанзе, — приводятся в пресс-релизе университета слова первого автора статьи Ксении Крашенинниковой, инженера-исследователя из Лаборатории компьютерных технологий ИТМО. — Эти два вида имеют одинаковый набор генов, но элементы их регуляции и перестройки генома создают немного разный порядок, что приводит к отличиям между этими приматами».

Таким образом, чтобы понять, насколько два вида эволюционно близки друг к другу, ученым нужно знать не только какие у них гены, но и то, как эти гены располагаются в хромосоме, много ли у животных общих фрагментов генома или синтенных блоков.

Но геномы млекопитающих состоят из миллионов и миллиардов пар оснований. Без технологий обработки больших данных освоить такой объем практически невозможно. Поэтому ученые создают программы, позволяющие решать задачи такого уровня.

Разработка специалистов научно-образовательного центра Геномного разнообразия Университета ИТМО получила название halSynteny. Как утверждают ее создатели, она справляется с поиском синтенных блоков быстрее и лучше, нежели другие программы, созданные для этой цели, используя при этом данные в двух стандартных, хорошо известных форматах.

«Нашей целью было написать алгоритм, который было бы легко применить к доступным данным, — рассказывает Крашенинникова. — Некоторые подходы к поиску синтенных последовательностей основываются на предварительной аннотации генов, а наш метод работает немного иначе. Мы не используем дополнительную аннотацию. Мы используем метод выравнивания, то есть разные участки одного генома сопоставляются по степени похожести с участками другого генома. Таким образом мы можем выделить гомологичные участки, то есть обладающие одним и тем же происхождением».

Программа обрабатывает данные в два раза быстрее по сравнению с другим популярным методом SatsumaSynteny2. Высокая производительность была достигнута за счет реализации на языке C++ математически эффективного алгоритма.

Для проверки своей разработки ученые сравнили с помощью halSynteny геномы кошки и собаки.

«Мы показали, что крупные фрагменты хромосом кошки и какие-то фрагменты хромосом собаки объединяются в синтенные блоки, то есть они произошли от одних и тех же хромосом общего предка. На этой основе уже можно делать выводы о том, как происходил эволюционный процесс. Так, мы увидели, что кошки по сравнению с общим предком хищных имеют менее перестроенный геном, нежели собаки», — добавляет исследователь.

Авторы планируют использовать новый алгоритм и в других исследованиях по сравнительной геномике, проходящих в Университете ИТМО.

Статья опубликована в журнале GigaScience  
Источник: scientificrussia.ru