Предсказание сложной кристаллической структуры с использованием многоминимального итеративного генетического алгоритма, улучшенного машинным обучением
Complex crystal structure prediction using ML-enhanced multi-minima iterative genetic algorithm
Карточка статьи
Рубрика
Биология
Источник
arXiv
Дата
01.07.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Аннотация
Современные подходы машинного обучения (МО) в области открытия новых материалов сильно зависят от известных структурных баз данных, что ограничивает их способность выявлять совершенно новые типы структур. В данной работе мы разработали многоминимальный итеративный генетический алгоритм (MMIGA), который интегрирует межатомный потенциал, основанный на искусственной нейронной сети (ANN-ML), с итеративной схемой наказаний, вдохновленной метадинамикой. Мы демонстрируем надежность этого метода на сложной тернарной системе La-Co-Pb, характеризующейся несовместимостью Co-Pb и сложным энергетическим ландшафтом. Алгоритм MMIGA, улучшенный с помощью МО, успешно предсказывает основнойPbam структуру недавно синтезированной антагонистической пары фаз La4Co4Pb, новую структуру, упущенную в предыдущих предсказаниях, зависящих от баз данных МО, одновременно выявляя несколько метастабильных конкурирующих фаз. Кроме того, мы поставили задачу предсказать структуру антагонистической пары фаз La5CoPb2, нового соединения, найденного в ходе предыдущих попыток синтезировать предсказанную фазу La3CoPb. Имея всего лишь информацию о составе, наш подход MMIGA успешно предсказывает орторомбическую структуру La5CoPb2, точно совпадая со структурой, независимо определенной с помощью рентгеновской дифракции. Эффективно сопоставляя как глобальный минимум, так и соответствующие конкурирующие метастабильные состояния, этот подход предоставляет критически важные теоретические понимания выбора фаз для новых квантовых и магнитных материалов.
Краткое резюме
Исследование представляет новый подход к предсказанию кристаллических структур с использованием итеративного генетического алгоритма, улучшенного машинным обучением. Этот метод успешно использован для предсказания сложных структур La4Co4Pb и La5CoPb2, которые ранее не были выявлены.
Практический вывод
Предложенный алгоритм MMIGA может значительно повысить эффективность поиска новых материалов с уникальными свойствами, что открывает перспективы для разработки новых квантовых и магнитных технологий.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Метод недостаточно протестирован на более широком диапазоне составов и типов структур, что может ограничить его универсальность. Также требуется больше экспериментов для проверки предсказанных структур в реальных условиях.
Недавние модели генерации и редактирования изображений могут создавать визуально привлекательные натуральные изображения, однако они остаются ненадежными, когда целевое изображение представляет собой знания-интенсивную диаграмму, корректность которой зависит от дисциплинарных концепций, символической структуры и точных пространственных отношений. Мы представляем DisciplineGen-1M, набор данных многодисциплинарного масштаба с миллионом образцов, который поддерживает генерацию изображений из текста и редактирование изображений. Он содержит 1,2 миллиона образцов из математики, физики, химии, биологии, географии, информатики, экономики, истории, музыки и спорта. Для создания набора данных мы разрабатываем масштабируемую структуру, которая объединяет рендеринг векторной графики, редактирование на основе OCR, программный синтез и крупномасштабную фильтрацию текстов в изображения. Эти рабочие процессы обеспечивают создание аннотаций, инструкций по редактированию, структурированных аннотаций и пар изображений с контролируемыми семантическими различиями. Основываясь на DisciplineGen-1M, мы дополнительно представляем модель генерации рассуждений, учитывающую дисциплину, для генерации изображений из текста и редактирования изображений. Эксперименты на связанных с дисциплиной моделях, GenExam и GRADE, показывают значительные улучшения по сравнению с открытыми эталонами, в то время как оценки на общих моделях, информированных рассуждениями, WISE и RISE, дополнительно указывают на более широкий перенос. Результаты свидетельствуют о том, что структурированные академические визуальные данные большого объема являются ключевым компонентом для перехода генерации изображений от эстетической правдоподобности к верифицируемому созданию визуального контента на основе знаний. Мы публично выпустим наш набор данных, модель и исходный код процесса кураторства данных, чтобы обеспечить воспроизводимость и содействовать будущим исследованиям.
Классификация гетерогенных омических данных по-прежнему остается основной проблемой в вычислительной биологии, особенно в условиях высокой размерности и малых выборок, где доминируют нелинейные взаимодействия, а дисбаланс классов дополнительно усложняет надежное предсказание редких фенотипов. Хотя традиционные методы на основе ядров полагаются на изобилие признаков, они не используют известные ландшафты взаимодействий биологических систем. В данной работе мы предлагаем структуру классификации на основе гауссовского процесса, которая интегрирует закодированные графом биологические пути непосредственно в конструкцию ядра. Пропагируя информацию вдоль известных сетей взаимодействия и комбинируя это с признаками, основанными на изобилии, полученный классификатор захватывает как количественные измерения, так и топологический контекст. Мы проводим оценку нашей предложенной методологии на трех общедоступных наборах данных по микробиому кишечника и кала. Для решения проблемы серьезного дисбаланса классов мы оцениваем дополнительные стратегии, включая ресемплирование на уровене данных, калибровку порогов и корректировки на основе матрицы замешательства, и сообщаем о результатах для класса меньшинства наряду с общей точностью. Гибридный подход дает прирост производительности по сравнению с неструктурированными базовыми решениями и соответствует показателям установленных эталонов для аналогичных наборов данных. Кроме того, вероятностная природа данного подхода естественным образом предоставляет откалиброванную предсказательную неопределенность, позволяя надежно различать уверенные предсказания и неоднозначные образцы.
Переход актина от мономеров (G-актин) к полимерам (F-актин), а затем к пучковым и разветвленным сетям составляет основу многих клеточных и системных функций. Тем не менее, как эти сети динамически собираются и разборки остаётся неполностью понятым, включая то, почему F-актин часто одновременно и избыточно упаковывается различными белками. В данной работе мы сосредоточились на фасцине и эспине, двух белках, которые часто сосуществуют и надежно упаковывают F-актин. Мы установили, что они синергетически упаковывают F-актин по сравнению с одинаковыми количествами каждого из них по отдельности. Однако мы показали, что пучки, содержащие эти два белка, надежно дестабилизируются синергией между Микалом и кофилином, что указывает на механизмы, как сложные пучки разбираются и перестраиваются. Тем не менее, наши результаты также показывают, что вместе фасцин и эспин защищают F-актин от разборки более эффективно, чем каждый из них по отдельности, включая регуляцию разборки F-актина и клеточного ремоделирования in vivo. Эти находки раскрывают механизмы для сборки и разборки сложных сетей пучкового F-актина, включая синергию между различными упаковщиками и разбиралицами в этих процессах.
Точное восстановление генетических регуляторных сетей (GRN) имеет решающее значение для понимания транскрипционных процессов в процессе развития и при заболеваниях. MERLIN-SUITE представляет собой набор алгоритмических расширений, основанных на MERLIN — вероятностной структуре, которая выводит специфические для генов и модуля регуляторные программы со-регулируемых модулей, захватывая как детализированные, так и модульные аспекты транскрипционных сетей. Хотя вывод на основе экспрессии эффективен, он часто плохо совпадает с экспериментально подтвержденными регуляторными взаимодействиями. MERLIN-P решает эту проблему, интегрируя внешние регуляторные приоритеты, такие как мотивы, данные ChIP и данные о perturbations, для повышения биологической значимости и предсказательной точности. MERLIN-P-TFA далее развивает структуру, внедряя регуляризованную оценку скрытой активности транскрипционных факторов, преодолевая ограничение, что уровни мРНК TF могут не представлять активность белка. Интегрируя данные о экспрессии, предшествующие знания и моделирование с учетом активности, этот унифицированный подход поддерживает надежное восстановление GRN как в объемных, так и в одноядерных наборах данных. Этот раздел представляет MERLIN-SUITE с акцентом на MERLIN-P-TFA и демонстрирует его использование на наборе данных мышиного клеточного перепрограммирования с несколькими модальностями для вывода GRN и идентификации ключевых регуляторов.
Продуктивность антител и качество гликозилирования в культурах CHO возникают из динамически меняющейся метаболической среды, однако модели часто работают в изоляции или на одном уровне. В данной работе мы представляем мультимасштабную механистическую модель, связывающую молекулярный, клеточный и процессный уровни, для предсказания того, как входные параметры формируют траектории биопроцессов. Основой модели является кинетическая модель на уровне одной клетки, которая связывает метаболические и гликозилирующие сети, управляющие выходом и критическими качественными характеристиками (CQA). Стохастическая модель одной клетки описывает зависящие от окружающей среды переходы между ростом, производством и упадком, учитывая гетерогенность популяции. Мы также вводим накопительное изменение скорости поглощения кислорода, интегрируя общее метаболическое изменение со временем, как компактный биомаркер для предсказания метаболических изменений. В отличие от подходов, основанных на среднем по популяции, модель передает метаболические состояния с разрешением на уровень клеток (включая pH Гольджи, регулируемое аммиаком, доступность нуклеотидных сахаров, марганцевые кофакторы и скорость синтеза) в процесс гликозилирования. Модель была оценена на культурах CHO-K1, производящих VRC01 IgG1 при целевом стрессе от аммиака, в условиях контроля и с использованием стратегии пирамидальной подачи с более строгим контролем. Она точно предсказывает траектории плотности клеток, метаболитов, продуктивности и гликозилирования, включая увеличение G0F и снижение галактилирования при стрессе от аммиака, и количественно оценивает, как метаболическая гетерогенность влияет на изменчивость продуктивности и CQA. Эта работа предоставляет единое основание для предсказательной биопроизводства и продвинутого управления процессами.
Генетические регуляторные сети (ГРС) описывают направленные отношения между регуляторами и целевыми генами, определяя шаблоны экспрессии генов специфично для клеточных типов. Технологии многократного омного секвенирования одиночных клеток, такие как секвенирование РНК одиночных клеток (scRNA-seq) и секвенирование для оценки доступности хроматина одиночной клетки (scATAC-seq), позволяют высокоточно измерять экспрессию генов и регуляцию, специфичные для клеточных типов, как никогда ранее. Тем не менее, инструменты для вывода специфичных для клеточных типов ГРС и моделирования их динамики по-прежнему остаются редкостью. Для содействия выводу и анализу специфичных для клеточных типов ГРС в контекстах, таких как клеточное развитие или прогрессирование заболеваний, где структура и динамика клеточных линий важны, мы разработали рамочные структуру многофункционального обучения, называемую выводом сетей на базе одиночных клеток (scMTNI). ScMTNI и его сопутствующие инструменты анализа сетей предлагают комплексный пакет для определения специфичных для клеточных типов ГРС и изучения их динамики. Эта глава книги описывает инструмент scMTNI и демонстрирует его применение к существующему набору данных о многомодальной репрограммировании одиночных клеток для вывода специфичных для клеточных типов ГРС и выявления ключевых регуляторов переходов клеточной судьбы во время репрограммирования клеток.