MERLIN-SUITE: Вероятностное модульное восстановление генетических регуляторных сетей из многомерных омных данных с интеграцией регуляторных приоритетов и активности транскрипционных факторов
MERLIN-SUITE: Probabilistic modular GRN inference from multi-omics data integrating regulatory priors and transcription factor activity
Карточка статьи
Рубрика
Биология
Источник
arXiv
Дата
02.07.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Краткое резюме
MERLIN-SUITE — это мощный инструмент для восстановления генетических регуляторных сетей, который интегрирует данные разных типов для повышения точности и биологической значимости. Он использует вероятностную модель, которая учитывает не только экспрессию генов, но и внешние регуляторные факторы.
Практический вывод
MERLIN-SUITE с интеграцией внешних данных позволяет более точно восстанавливать генетические регуляторные сети, что может быть полезно в исследованиях, касающихся развития и заболеваний.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Возможные ограничения исследования включают зависимость от качества и доступности внешних регуляторных данных, а также сложности в интерпретации результатов в сложных биологических системах.
Статус мутации гистона H3K27M определяет клинически агрессивную подгруппу педиатрической диффузной срединной глиомы и влияет на прогноз и право участия в клинических испытаниях, однако подтверждение обычно требует биопсии из важных срединных структур. Мы оценили, может ли радиомика, основанная на стандартной МРТ с T2-взвешиванием, предоставить дополнительный сигнал для скрининга в неоднородной выборке, где сканирование часто выполняется внешними учреждениями, и MРТ с T2-взвешиванием является единственной последовательно доступной последовательностью. Было проанализировано 98 педиатрических пациентов с подтвержденным статусом по биопсии (73 с положительной мутацией, 25 с дикой формой). Экспертные сегментации опухоли определили области интереса для извлечения признаков PyRadiomics после изотропной переработки, двойного исключения черепной кости и фильтрации на разных масштабах. Мы систематически отключали предобработку, устраняли корреляцию с помощью повторного рекурсивного выбора признаков, объема опухоли и синтетической миноритарной агментации TabDDPM по 100 стратифицированным выборкам обучения/тестирования с реальными тестовыми наборами. Чистая радиомика достигла точности 0.664 и F1-оценки 0.784. Лучший процесс включал предобработку, выбор признаков и объем с CatBoost, достигнув точности 0.730 $\pm$ 0.068 и F1-оценки 0.826 $\pm$ 0.044. TabDDPM улучшил TabPFN до F1-оценки 0.81 $\pm$ 0.05 при 200 увеличенных строках. Эти результаты поддерживают использование радиомики на МРТ с T2-взвешиванием как умеренной вспомогательной помощи для скрининга и триажа, но не заменяют диагностику на основе ткани.
Недавние модели генерации и редактирования изображений могут создавать визуально привлекательные натуральные изображения, однако они остаются ненадежными, когда целевое изображение представляет собой знания-интенсивную диаграмму, корректность которой зависит от дисциплинарных концепций, символической структуры и точных пространственных отношений. Мы представляем DisciplineGen-1M, набор данных многодисциплинарного масштаба с миллионом образцов, который поддерживает генерацию изображений из текста и редактирование изображений. Он содержит 1,2 миллиона образцов из математики, физики, химии, биологии, географии, информатики, экономики, истории, музыки и спорта. Для создания набора данных мы разрабатываем масштабируемую структуру, которая объединяет рендеринг векторной графики, редактирование на основе OCR, программный синтез и крупномасштабную фильтрацию текстов в изображения. Эти рабочие процессы обеспечивают создание аннотаций, инструкций по редактированию, структурированных аннотаций и пар изображений с контролируемыми семантическими различиями. Основываясь на DisciplineGen-1M, мы дополнительно представляем модель генерации рассуждений, учитывающую дисциплину, для генерации изображений из текста и редактирования изображений. Эксперименты на связанных с дисциплиной моделях, GenExam и GRADE, показывают значительные улучшения по сравнению с открытыми эталонами, в то время как оценки на общих моделях, информированных рассуждениями, WISE и RISE, дополнительно указывают на более широкий перенос. Результаты свидетельствуют о том, что структурированные академические визуальные данные большого объема являются ключевым компонентом для перехода генерации изображений от эстетической правдоподобности к верифицируемому созданию визуального контента на основе знаний. Мы публично выпустим наш набор данных, модель и исходный код процесса кураторства данных, чтобы обеспечить воспроизводимость и содействовать будущим исследованиям.
Классификация гетерогенных омических данных по-прежнему остается основной проблемой в вычислительной биологии, особенно в условиях высокой размерности и малых выборок, где доминируют нелинейные взаимодействия, а дисбаланс классов дополнительно усложняет надежное предсказание редких фенотипов. Хотя традиционные методы на основе ядров полагаются на изобилие признаков, они не используют известные ландшафты взаимодействий биологических систем. В данной работе мы предлагаем структуру классификации на основе гауссовского процесса, которая интегрирует закодированные графом биологические пути непосредственно в конструкцию ядра. Пропагируя информацию вдоль известных сетей взаимодействия и комбинируя это с признаками, основанными на изобилии, полученный классификатор захватывает как количественные измерения, так и топологический контекст. Мы проводим оценку нашей предложенной методологии на трех общедоступных наборах данных по микробиому кишечника и кала. Для решения проблемы серьезного дисбаланса классов мы оцениваем дополнительные стратегии, включая ресемплирование на уровене данных, калибровку порогов и корректировки на основе матрицы замешательства, и сообщаем о результатах для класса меньшинства наряду с общей точностью. Гибридный подход дает прирост производительности по сравнению с неструктурированными базовыми решениями и соответствует показателям установленных эталонов для аналогичных наборов данных. Кроме того, вероятностная природа данного подхода естественным образом предоставляет откалиброванную предсказательную неопределенность, позволяя надежно различать уверенные предсказания и неоднозначные образцы.
Несмотря на увеличение масштаба и разрешения, многие биологические измерения остаются разрушительными, раскрывая лишь пространственную информацию, а не динамику, которую они кодируют. Совмещая гибкие представления с механистическими ограничениями, физически обоснованное машинное обучение предлагает многообещающий путь для вывода этих динамик из статических снимков. Исходя из субклеточной визуализации экспрессии генов, мы задаемся вопросом, когда статический пространственный паттерн молекул может идентифицировать пространственно изменяющуюся диффузию, создание, разрушение и обмен на границе, и как различные схемы вывода выполняют эту задачу. Структурный анализ идентифицируемости показывает, что распределенные источники не могут быть идентифицированы, тогда как точечный источник, такой как место транскрипции, может восстановить идентифицируемость. Эти ограничения дополнительно формируются, казалось бы, безобидными выборами моделей: граничные условия, пространственная регулярность базовой динамики и даже конвенция стохастического исчисления. Затем мы адаптируем несколько схем, основанных на физических принципах, отличающихся тем, как они представляют решение и учитывают управляющие уравнения, и демонстрируем эффективный вывод из одного снимка. Таким образом, подходы, основанные на физических принципах, могут восстановить пространственные гетерогенности биологических динамик из статических данных, но их использование должно сопровождаться и направляться тщательным анализом идентифицируемости для значительной интерпретации результатов.
Продуктивность антител и качество гликозилирования в культурах CHO возникают из динамически меняющейся метаболической среды, однако модели часто работают в изоляции или на одном уровне. В данной работе мы представляем мультимасштабную механистическую модель, связывающую молекулярный, клеточный и процессный уровни, для предсказания того, как входные параметры формируют траектории биопроцессов. Основой модели является кинетическая модель на уровне одной клетки, которая связывает метаболические и гликозилирующие сети, управляющие выходом и критическими качественными характеристиками (CQA). Стохастическая модель одной клетки описывает зависящие от окружающей среды переходы между ростом, производством и упадком, учитывая гетерогенность популяции. Мы также вводим накопительное изменение скорости поглощения кислорода, интегрируя общее метаболическое изменение со временем, как компактный биомаркер для предсказания метаболических изменений. В отличие от подходов, основанных на среднем по популяции, модель передает метаболические состояния с разрешением на уровень клеток (включая pH Гольджи, регулируемое аммиаком, доступность нуклеотидных сахаров, марганцевые кофакторы и скорость синтеза) в процесс гликозилирования. Модель была оценена на культурах CHO-K1, производящих VRC01 IgG1 при целевом стрессе от аммиака, в условиях контроля и с использованием стратегии пирамидальной подачи с более строгим контролем. Она точно предсказывает траектории плотности клеток, метаболитов, продуктивности и гликозилирования, включая увеличение G0F и снижение галактилирования при стрессе от аммиака, и количественно оценивает, как метаболическая гетерогенность влияет на изменчивость продуктивности и CQA. Эта работа предоставляет единое основание для предсказательной биопроизводства и продвинутого управления процессами.
Взаимосвязь между структурой мозга и генетическими влияниями играет ключевую роль в понимании нейропсихиатрических расстройств. Однако большинство крупных наборов данных являются унимодальными, предоставляя либо данные нейровизуализации, либо генетические данные. Мы предлагаем CALM, структуру, которая изучает интерпретируемые ассоциации между регионами интереса мозга и генетическими путями из совершенно разнородных популяций. CALM выравнивает две модальности в общем латентном пространстве через линейные проекции, которые одновременно сопоставляют классовые условные латентные распределения и обеспечивают отделимость групп. Эти проекции предоставляют интерпретируемые ассоциации путь-ROI. Когда модель обучается на унимодальных наборах данных из области изображения и генетики, CALM обобщается на невидимом парном наборе данных, превосходя несколько современных методов и базовые модели с абляцией. Мы также демонстрируем устойчивость изученных ассоциаций по сравнению с парной базовой моделью. Наши эксперименты по изучению расстройства аутистического спектра выявляют иммунные и метаболические пути, связанные с конкретными корковыми регионами, что соответствует установленной литературе. Таким образом, CALM открывает возможности для использования крупных унимодальных репозиториев для изучения кросс-модальных взаимодействий в расстройствах мозга среди разнородных наборов данных.