Создаются виртуальные ячейки. Неужели ИИ только что разобрался в биологии?

Quzikrat
Создаются виртуальные ячейки. Неужели ИИ только что разобрался в биологии?

Результаты, которые выглядели великолепно в презентациях на конференциях, оказались на удивление посредственными в тестах. 2025 год стал годом истины: стартовал Virtual Cell Challenge, в котором приняли участие более тысячи команд. Можно ли будет построить виртуальную модель клетки? Узнаем 6 декабря. Оцените? 100 тысяч долларов и ответ на вопрос: что действительно будет работать в этой головоломке.

Виртуальные клетки ИИ. Кому это нужно?

Идеальная версия заманчива. Сотовые модели на основе искусственного интеллекта могут: сократить путь от гипотезы к эксперименту за счет выявления наиболее перспективных генетических модификацийони также могли бы моделировать клеточные реакции на лекарства без затрат и ограничений влажной лаборатории, служить испытательным полигоном в области клеточной инженерии и, наконец, объединять молекулярные данные человека с его «окружением» — от тканевых сигналов до влияний окружающей среды, — говорят эксперты, добавив, что такое открытие станет общей рабочей платформой для биохимиков, биоинформатиков и разработчиков лекарств.

Virtual Cell Challenge – новые правила игры, настоящее испытание

В июне более 20 исследователей, в том числе Хани Гударзи из Arc Institute, запустили Virtual Cell Challenge. — конкурс по тестированию моделей ИИ на достоверных данных и четко поставленных задачах. Для дебюта организаторы выбрали задачу, с которой предыдущие «уравнения» выполнялись плохо: прогнозирование эффектов молчания генов в эмбриональных стволовых клетках человека.

Интерес превзошел ожидания. В соревновании приняли участие более 1000 команд, в том числе: Cellamander, Zebulon Chow, SmartCell и Mean Predictors, а спонсоры, включая Nvidia, внесли 100 000 долларов. доллары. «Мы хотим выяснить, что работает, а что нет», — говорит Гударзи. Полная таблица результатов будет объявлена ​​6 декабря.

Как выглядит протокол? Команда Arc Institute использовала CRISPR (кластеризованные короткие палиндромные повторы с регулярными интервалами), чтобы отключить 300 генов (по одному) в эмбриональных стволовых клетках человека и измерить влияние на экспрессию оставшихся. Участники конкурса тренируют свои модели на данных из 150 генов (а также любых сопоставимых общедоступных наборов данных) и в предварительном раунде прогнозируют последствия отключения еще 50 генов. Победителя определит финальный тур, в котором будет выбрана «слепая» сотня (100) генов, — указывают организаторы.

От уравнений к данным: краткая история «целой клетки»

До эпохи искусственного интеллекта ученые пытались описать клетку с помощью уравнений. Четверть века назад были созданы модели метаболизма, синтеза белка и репликации ДНК. Прорыв произошел в 2012 году, когда Джонатан Карр и его коллеги из лаборатории Маркуса Коверта в Стэнфорде представили первую модель целой клетки. кремниевая версия Mycoplasmagentium. Он был выбран потому, что у него более 500 генов (для сравнения, у E. coli их более 4000).. Модель подсчитала концентрации 700 метаболитов в 1100 химических реакциях и воспроизвела наиболее важные элементы: хромосому и рибосомы.

В 2022 году команда Зана Люти-Шультена (Университет Иллинойса) пошла дальше: они смоделировали минимальную клетку, уменьшенную до 493 генов, в трех измерениях, используя данные криогенной электронной томографии. Цена реализма? Моделирование 20 минут жизни такой ячейки требовало 8-10 часов продвинутой работы графического процессора.

Это школа, в которой модели «знают» столько, сколько им говорит создатель. И хотя, как отмечает Карр, они превосходно предсказывают краткосрочную динамику (например, ежесекундные изменения концентрации частиц), оставайтесь слепыми к вопросам, которые больше всего интересуют практиков: что происходит, когда мы заглушаем данный ген? Фабиан Тайс из Технического университета Мюнхена резко подводит итог: старый подход «Можно с уверенностью сказать, что они полностью провалились» в этом типе прогнозов.

Основополагающие модели в биологии; Одна модель, чтобы управлять всеми

Искусственный интеллект предлагает другой путь: обучение на огромных экспериментальных наборах без навязывания уравнений. «Мы не учим их никакой биологии», — подчеркивает Стив Квейк из Стэнфорда, соавтор TranscriptFormer, модели, разработанной, в частности, Инициативой Чана Цукерберга (CZI).

Точно так же, как GPT-5 в языке, в биологии создаются фундаментальные модели: общие системы, которые могут выполнять различные задачи «из коробки» (классификация типов клеток, прогнозирование эффектов манипуляций с генами, оценка реакции на лекарства), а затем — при необходимости — могут быть обучены для нишевых целей.. «Одна из моделей, которая управляет ими всеми, — это видение», — говорит Тайс.

Геноформер. 30 миллионов клеток, прогнозы и проверка CRISPR

Одним из первых было семейство геноформеров, которое Кристина Теодорис (UCSF) описала в журнале Nature в мае 2023 года. Цель была ясна: улучшить более раннюю, менее эффективную систему, которая анализировала генные сети и предсказывала последствия их модификаций. В 2021 году команда Теодориса обнаружила молекулу с терапевтическим потенциалом при заболеваниях сердца с избытком кальция в клапанах, но ей пришлось вручную реконструировать генную сеть. В Geneformer исследователь «хотел посмотреть, сможем ли мы создать фундаментальную модель, которая будет иметь базовое понимание генных сетей».

Geneformer был обучен измерению экспрессии почти 30 миллионов клеток человека. Модель узнала взаимосвязь между генами и смогла указать, какие из них следует заставить замолчать, чтобы «омолодить» дисфункциональные клетки сердечной мышцы.. Важно отметить, что команда пошла еще дальше. Когда CRISPR отключил два гена в культивируемых кардиомиоцитах с мутациями кардиомиопатии, сила сокращения увеличилась. Это намек на то, что лекарства, ингибирующие эти гены, могут иметь смысл. Геноформер, заключает Теодорис, «может указать новые направления и ускорить открытие лекарств».

TranscriptFormer — 112 миллионов клеток, 12 видов.

По сравнению с моделями, обученными исключительно на человеческих данных, TranscriptFormer выделяется своей эволюционной сферой. Команда Quake и Karaletsos подготовила три версии; наиболее полная была обучена на 112 миллионах клеток 12 видов — от человека и мышей до нематод, губок и малярийного паразита. Благодаря этому модель: классифицировала редкие типы клеток лучше, чем scGPT (2024) и Geneformer, отличала клетки легких, зараженные SARS-CoV-2, от здоровых, предсказывала действие препаратов на клетки, справилась с классификацией клеток видов, отсутствующих в обучающей выборке.

И сделал это без настройки — в режиме нулевого выстрела. «Работа TranscriptFormer показывает, как люди могут использовать такие инструменты для изучения основ биологии», — подчеркивает Теофанис Каралетсос.

CELLxGENE, лавина данных и… узкое место

Топливом этой революции являются данные – главным образом, экспрессия генов на уровне отдельных клеток. Одна только коллекция CELLxGENE (CZI) уже содержит более 35 миллионов клеток человека и мыши. Но этого все еще недостаточно и недостаточно «разнообразно», чтобы реализовать все, что хотят моделисты. «Ограничения данных являются огромным барьером для клеточных моделей», — говорит Карр. «Существует ограниченный набор вопросов, на которые мы можем ответить».

Другая проблема — отсутствие центрального репозитория, подобного банку данных белков (PDB), который позволил разработать, например, AlphaFold (двое его создателей получили Нобелевскую премию по химии в 2024 году). В отношении белковых структур существует стандарт, которого придерживаются спонсоры и журналы: каждый новый результат вводится в PDB. В клеточных данных такого требования нет, а типов данных больше и они разнообразнее (транскриптомы, изображения, метилирование, белки). «Невозможно охарактеризовать клетку с помощью только одной технологии», — напоминает нам Карр.

Бенчмарки и нулевой выстрел: как объективно измерить «интеллект» сотовых моделей?

Другой спор касается оценки. Многие разработчики сначала обучают базовые модели, затем настраивают их под конкретную задачу — и только потом тестируют. Некоторые исследователи полагают, что истинный класс раскрывается в условиях нулевого выстрела: «Если они делают выводы на основе фундаментальных биологических знаний, это должно быть правдой, прежде чем мы проведем какую-либо тонкую настройку», — говорит Тайс. В этом году CZI опубликовала эталонные инструменты для стандартизации сравнений.

Холодный душ: когда побеждают простые методы

«Несмотря на шумиху в СМИ, (эти модели) работают не очень хорошо», — говорит Алекс Лу из Microsoft Research. В работе, опубликованной ранее в этом году в журнале Genome Biology, Лу и команда Кедзерской противопоставили scGPT и Geneformer более примитивному искусственному интеллекту и двум методам, не связанным с искусственным интеллектом. К удивлению авторов, победу одержали, в частности, более простые методы: в классификации клеток.

Теодорис отвечает, что тесты, должно быть, были легкими, поскольку с ними могли справиться простые инструменты, и они не использовали в полной мере возможности Геноформатора.

В августе в журнале Nature Methods Константин Альманн-Эльце сообщил, что простая математическая формула предсказывает реакцию отдельных генов на изменения активности других точнее, чем пять фундаментальных моделей и два других алгоритма искусственного интеллекта. «Я был очень удивлен. Судя по публикациям, все они выглядели очень хорошо», — признался исследователь.

«Я бы не отказался от этих моделей». Критика не прекращает гонку

Несмотря на вялые оценки, исследователи не сдаются. «Я бы не отказалась от этих моделей. Их неудачи дают нам много информации», — подчеркивает Кася Кендзерска. По ее словам, отрасль быстро учится тому, что и как измерять, а открытые соревнования, такие как Virtual Cell Challenge, ускоряют развитие инструментов. Гударзи также снижает настроение: конкуренция была задумана как сложная, а отсутствие «надежных вещей» должно стимулировать настоящие инновации.

Оптимизм можно услышать и в секторе биотехнологий. «Мы еще не решили проблему, но (этот подход) очень многообещающий», — говорит Бо Ванг, руководитель отдела биомедицинского искусственного интеллекта в Xaira Therapeutics. А Теофанис Каралетсос добавляет в конце предельно честное кредо инженера: TranscriptFormer — «самая глупая модель, которую мы когда-либо создавали». Другими словами: это только начало.

Основы данных: графический процессор, миллиарды переменных и обработка изображений

За кулисами происходят прозаические и дорогие вещи. 20-минутное моделирование жизни минимальной ячейки в 3D-версии может занять 8-10 часов на GPU ЦОД-класса (стоимость — от нескольких до нескольких тысяч долларов за час работы). Тем не менее, мы говорим о бактерии с 493 генами, а не о человеческой клетке с тысячами регуляторных элементов. Версии ИИ пытаются решить эту проблему, но им также не хватает данных и вычислительной мощности.

Ключом будет выйти за рамки транскриптомики (области биологических наук, которая занимается определением того, где и когда гены активны, путем изучения транскриптома). Визуализация на клеточном уровне (например, криогенная электронная томография), протеомика, метилирование ДНК, доступность хроматина — все это должно быть объединено в общий «холст», если модели хотят предсказывать морфологию, движение, взаимодействия и время.

AI-учёные: клеточные модели как «двигатели» виртуальных исследователей

Сам по себе ИИ — это не просто модель клетки. Это еще и ученый-помощник: виртуальный агент, который читает литературу, формулирует гипотезы, планирует эксперименты и сообщает о результатах. Набор из более чем 600 инструментов, опубликованный в этом году Маринкой Зитник и ее коллегами, показывает, как такие «лаборатории искусственного интеллекта» могут использовать такие фонды, как TranscriptFormer. Благодаря архитектуре модели, как подчеркивают авторы, «результаты появляются быстрее и с большей точностью».

Источники:

  • Материалы о Virtual Cell Challenge (Arc Institute; анонс, протокол CRISPR, расписание с объявлением результатов 6 декабря и призом $100 000 + GPU).
  • Карр Дж. и его команда (2012): первая цельноклеточная модель (Mycoplasmagentium): >500 генов, ~700 метаболитов, ~1100 реакций.
  • Люти-Шультен З. и др. (2022): минимальная модель клетки (493 гена), 3D, стоимость 8–10 часов графического процессора / 20 минут моделирования.
  • Теодорис К. (Nature, май 2023 г.): Геноформатор (~30 миллионов человеческих клеток); Прогнозы, подтвержденные CRISPR, при кардиомиопатии.
  • Quake S., Karaletsos T. (bioRxiv, 2025): TranscriptFormer (112 миллионов клеток, 12 видов); классификации, SARS-CoV-2, лекарства, нулевой выстрел.
  • CELLxGENE (CZI): коллекция из >35 миллионов клеток (человека и мыши).
  • Лу А., Кедзерска К. и др. (Genome Biology, 2025): сравнение scGPT/Geneformer с более простыми методами.
  • Альманн-Эльце К. и др. (Nature Methods, август 2025 г.): Простая формула превосходит пять базовых моделей и два других алгоритма искусственного интеллекта при прогнозировании реакций генов.
  • Цитируемые заявления: Касия Кедзерска; Хани Гударзи; Алекс Лу; Бо Ван; Фабиан Тайс; Теофанис Каралетсос; Стив Квейк; Кристина Теодорис.

Вас также может заинтересовать

Оставить комментарий