ИИ научился читать геномы от бактерий до человека
Команда Arc Institute и инженеры компании NVIDIA представили Evo 2 — генеративную искусственную интеллектуальную модель, предназначенную для прогнозирования символов в ДНК и анализа генетического кода различных организмов, от бактерий до человека. Проект был опубликован в открытом доступе, включая саму модель, исходный код и набор данных.
Первая версия модели Evo продемонстрировала высокую эффективность при работе с бактериальными геномами, где гены обычно группируются по функциональному назначению. Однако эукариотические геномы представляют собой более сложную структуру из-за наличия интронов, процессинга сплайсинга, регуляторных областей и множества слабых сигналов. Evo 2 разработана для обработки таких сложных структур.
Модель базируется на архитектуре StripedHyena 2, которая способна обрабатывать до одного миллиона нуклеотидных пар одновременно. Она была обучена на наборе данных OpenGenome2, содержащем около 9 триллионов пар оснований ДНК из различных доменов жизни, включая бактериофаги. Важно отметить, что данные вирусов, инфицирующих эукариотические организмы, были специально исключены из обучающего набора для минимизации рисков злоупотребления.
Одним из наиболее впечатляющих аспектов модели является её способность самостоятельно выявлять важные биологические маркеры, такие как границы экзонов и интронов, участки связывания транскрипционных факторов и некоторые структурные элементы белков. Это позволяет модели выявлять биологические особенности, которые ранее требовали использования специализированных инструментов.
С практической точки зрения, Evo 2 способна оценивать влияние геномных вариаций без дополнительного обучения под конкретные задачи. Например, для variants гена BRCA1 точность классификации "доброкачественный" против "патогенный" превышает 90%. Это делает модель ценным инструментом для определения приоритетов в исследовании мутаций.


