Enerzyme: Рамочная структура для эффективного обучения реактивных нейронных сетевых потенциалов для катализа ферментов с применением к метилтрансферазам
Enerzyme: A Framework for Efficient Training of Reactive Neural Network Potentials for Enzyme Catalysis with Application to Methyltransferases
Карточка статьи
Рубрика
Биология
Источник
arXiv
Дата
01.07.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Аннотация
Квантово-механические (КМ) кластерные модели предоставляют эффективную платформу для механистических исследований ферментативных реакций, но остаются вычислительно сложными. Нейронные сетевые потенциалы (НСП) предлагают многообещающий путь для снижения этих затрат, однако ферменты предъявляют требования, отличные от маломолекулярных соединений, включая большие размеры систем, условия с неявным растворителем, значительную поляризацию и перенос заряда. В данном исследовании мы представляем интегрированную программную платформу для эффективного обучения НСП для механистических исследований ферментов, продемонстрированную на КМ моделях S-аденозил-L-метионинзависимых метилтрансфераз (MTases). Наш код Enerzyme вводит модульные архитектуры НСП, учитывающие электростатики, и сочетает автоматизированное строительство КМ с генерацией реактивных наборов данных. Пакет Enerzymette автоматизирует исследование реакционных путей как на уровне НСП, так и на уровне DFT. Мы показываем, что итеративные гибкие сканирования и расчеты с использованием сдвинутых эластичных линий накладывают более строгие требования на НСП, чем традиционные метрики наборов данных. Тем не менее, НСП, обученные на менее чем 1000 специфичных для системы точках данных, воспроизводят энергетические характеристики реакций и структуры переходного состояния для кластеров MTase, содержащих до 545 атомов, с близкой к химической точностью. Прямое управление атомными зарядами и постоянное диэлектрическое экранирование значительно улучшают стабильность и точность симуляций, в то время как заряды, обученные в режиме многозадачности, захватывают тенденции переноса заряда и поляризации и предоставляют химически значимые дескрипторы реактивности. Наконец, переносимость на химически разнообразные субстраты катехол O-метилтрансферазы указывает на то, что НСП учат универсальные паттерны реактивности по мере расширения учебных данных на несколько ферментов. В целом, эти результаты устанавливают основу для ускорения механистических исследований ферментов и направляют дальнейшую разработку НСП для биомолекулярной реактивности.
Краткое резюме
Статья представляет новую программную платформу Enerzyme для эффективного обучения нейронных сетевых потенциалов в механистических исследованиях ферментативных реакций, предлагая уникальные архитектуры и методы автоматизации.
Практический вывод
Эта работа предлагает новые способы повышения точности и стабильности симуляций ферментов, что может ускорить открытия в области биохимии и катализа.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Основными ограничениями исследования являются необходимость в большом количестве данных для обучения нейронных сетей и возможная ограниченность моделей в специфических условиях или системах.
Продуктивность антител и качество гликозилирования в культурах CHO возникают из динамически меняющейся метаболической среды, однако модели часто работают в изоляции или на одном уровне. В данной работе мы представляем мультимасштабную механистическую модель, связывающую молекулярный, клеточный и процессный уровни, для предсказания того, как входные параметры формируют траектории биопроцессов. Основой модели является кинетическая модель на уровне одной клетки, которая связывает метаболические и гликозилирующие сети, управляющие выходом и критическими качественными характеристиками (CQA). Стохастическая модель одной клетки описывает зависящие от окружающей среды переходы между ростом, производством и упадком, учитывая гетерогенность популяции. Мы также вводим накопительное изменение скорости поглощения кислорода, интегрируя общее метаболическое изменение со временем, как компактный биомаркер для предсказания метаболических изменений. В отличие от подходов, основанных на среднем по популяции, модель передает метаболические состояния с разрешением на уровень клеток (включая pH Гольджи, регулируемое аммиаком, доступность нуклеотидных сахаров, марганцевые кофакторы и скорость синтеза) в процесс гликозилирования. Модель была оценена на культурах CHO-K1, производящих VRC01 IgG1 при целевом стрессе от аммиака, в условиях контроля и с использованием стратегии пирамидальной подачи с более строгим контролем. Она точно предсказывает траектории плотности клеток, метаболитов, продуктивности и гликозилирования, включая увеличение G0F и снижение галактилирования при стрессе от аммиака, и количественно оценивает, как метаболическая гетерогенность влияет на изменчивость продуктивности и CQA. Эта работа предоставляет единое основание для предсказательной биопроизводства и продвинутого управления процессами.
Исследование сосредотачивается на двигательных расстройствах и болезни Паркинсона, исследуя дисфункцию нейронных цепей и патофизиологию через призму современных технологий и междисциплинарного подхода. Акцент на нейровизуализации и генетике подчеркивает значимость персонализированного подхода к лечению.
Взаимосвязь между структурой мозга и генетическими влияниями играет ключевую роль в понимании нейропсихиатрических расстройств. Однако большинство крупных наборов данных являются унимодальными, предоставляя либо данные нейровизуализации, либо генетические данные. Мы предлагаем CALM, структуру, которая изучает интерпретируемые ассоциации между регионами интереса мозга и генетическими путями из совершенно разнородных популяций. CALM выравнивает две модальности в общем латентном пространстве через линейные проекции, которые одновременно сопоставляют классовые условные латентные распределения и обеспечивают отделимость групп. Эти проекции предоставляют интерпретируемые ассоциации путь-ROI. Когда модель обучается на унимодальных наборах данных из области изображения и генетики, CALM обобщается на невидимом парном наборе данных, превосходя несколько современных методов и базовые модели с абляцией. Мы также демонстрируем устойчивость изученных ассоциаций по сравнению с парной базовой моделью. Наши эксперименты по изучению расстройства аутистического спектра выявляют иммунные и метаболические пути, связанные с конкретными корковыми регионами, что соответствует установленной литературе. Таким образом, CALM открывает возможности для использования крупных унимодальных репозиториев для изучения кросс-модальных взаимодействий в расстройствах мозга среди разнородных наборов данных.
Генетические регуляторные сети (ГРС) описывают направленные отношения между регуляторами и целевыми генами, определяя шаблоны экспрессии генов специфично для клеточных типов. Технологии многократного омного секвенирования одиночных клеток, такие как секвенирование РНК одиночных клеток (scRNA-seq) и секвенирование для оценки доступности хроматина одиночной клетки (scATAC-seq), позволяют высокоточно измерять экспрессию генов и регуляцию, специфичные для клеточных типов, как никогда ранее. Тем не менее, инструменты для вывода специфичных для клеточных типов ГРС и моделирования их динамики по-прежнему остаются редкостью. Для содействия выводу и анализу специфичных для клеточных типов ГРС в контекстах, таких как клеточное развитие или прогрессирование заболеваний, где структура и динамика клеточных линий важны, мы разработали рамочные структуру многофункционального обучения, называемую выводом сетей на базе одиночных клеток (scMTNI). ScMTNI и его сопутствующие инструменты анализа сетей предлагают комплексный пакет для определения специфичных для клеточных типов ГРС и изучения их динамики. Эта глава книги описывает инструмент scMTNI и демонстрирует его применение к существующему набору данных о многомодальной репрограммировании одиночных клеток для вывода специфичных для клеточных типов ГРС и выявления ключевых регуляторов переходов клеточной судьбы во время репрограммирования клеток.
Недавние модели генерации и редактирования изображений могут создавать визуально привлекательные натуральные изображения, однако они остаются ненадежными, когда целевое изображение представляет собой знания-интенсивную диаграмму, корректность которой зависит от дисциплинарных концепций, символической структуры и точных пространственных отношений. Мы представляем DisciplineGen-1M, набор данных многодисциплинарного масштаба с миллионом образцов, который поддерживает генерацию изображений из текста и редактирование изображений. Он содержит 1,2 миллиона образцов из математики, физики, химии, биологии, географии, информатики, экономики, истории, музыки и спорта. Для создания набора данных мы разрабатываем масштабируемую структуру, которая объединяет рендеринг векторной графики, редактирование на основе OCR, программный синтез и крупномасштабную фильтрацию текстов в изображения. Эти рабочие процессы обеспечивают создание аннотаций, инструкций по редактированию, структурированных аннотаций и пар изображений с контролируемыми семантическими различиями. Основываясь на DisciplineGen-1M, мы дополнительно представляем модель генерации рассуждений, учитывающую дисциплину, для генерации изображений из текста и редактирования изображений. Эксперименты на связанных с дисциплиной моделях, GenExam и GRADE, показывают значительные улучшения по сравнению с открытыми эталонами, в то время как оценки на общих моделях, информированных рассуждениями, WISE и RISE, дополнительно указывают на более широкий перенос. Результаты свидетельствуют о том, что структурированные академические визуальные данные большого объема являются ключевым компонентом для перехода генерации изображений от эстетической правдоподобности к верифицируемому созданию визуального контента на основе знаний. Мы публично выпустим наш набор данных, модель и исходный код процесса кураторства данных, чтобы обеспечить воспроизводимость и содействовать будущим исследованиям.
Понимание механистической функции гена является критически важной отправной точкой для биологии. Однако, для значительной части человеческого протеома эти знания разбросаны по тысячам первичных публикаций или остаются плохо установленными, в то время как кураторские базы данных, на которые полагаются биологи, могут отставать на годы от свежей литературы. Большие языковые модели теперь могут читать и синтезировать эту литературу по запросу, но делать это достоверно для многих генов — это дорогостоящая, неповторяемая сессия извлечения, которая не масштабируется среди пользователей. Здесь мы представляем Аффинаж, конвейер LLM, который выполняет это извлечение и механистическое рассуждение один раз для каждого гена — только на основе первичной литературы — и хранит результат в виде структурированной аннотации, которую можно повторно использовать. Программа чтения, разработанная биологами, извлекает только прямые экспериментальные доказательства, а синтетический этап рассуждает только на основе этих находок. Применяя анализ по всему геному, Аффинаж аннотирует 19 293 человеческих белок-кодирующих генов. Этот анализ предоставляет механизмы для тысяч генов, чей функционал в UniProt пуст или неполный, превосходя кураторские справочные материалы по 99.1% генов в прямом сравнении, оцененным независимо судьями LLM разных семейств. Аффинаж также определяет 10% протеома, которые остаются механистически не охарактеризованными, и будет служить постоянно обновляемым, основанным на литературе перепиской функций генов. Все записи доступны открыто по адресу https://affinage.wi.mit.edu. Более широко, Аффинаж служит примером того, как эксперты в области могут закодировать свои знания в масштабируемые конвейеры LLM, чтобы улучшить публично доступные данные, которые направляют биологические гипотезы и эксперименты.