БиологияarXivScience Morning3 мин чтенияpreprint

CALM: Интерпретируемая кросс-модальная выравниваемость для открытия биомаркеров на основе непарных данных

CALM: Interpretable Cross-Modal Alignment for Biomarker Discovery from Unpaired Data

Рубрика
Биология
Источник
arXiv
Дата
02.07.2026
Автор
Science Morning
Время чтения
3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Биология

Аннотация

Взаимосвязь между структурой мозга и генетическими влияниями играет ключевую роль в понимании нейропсихиатрических расстройств. Однако большинство крупных наборов данных являются унимодальными, предоставляя либо данные нейровизуализации, либо генетические данные. Мы предлагаем CALM, структуру, которая изучает интерпретируемые ассоциации между регионами интереса мозга и генетическими путями из совершенно разнородных популяций. CALM выравнивает две модальности в общем латентном пространстве через линейные проекции, которые одновременно сопоставляют классовые условные латентные распределения и обеспечивают отделимость групп. Эти проекции предоставляют интерпретируемые ассоциации путь-ROI. Когда модель обучается на унимодальных наборах данных из области изображения и генетики, CALM обобщается на невидимом парном наборе данных, превосходя несколько современных методов и базовые модели с абляцией. Мы также демонстрируем устойчивость изученных ассоциаций по сравнению с парной базовой моделью. Наши эксперименты по изучению расстройства аутистического спектра выявляют иммунные и метаболические пути, связанные с конкретными корковыми регионами, что соответствует установленной литературе. Таким образом, CALM открывает возможности для использования крупных унимодальных репозиториев для изучения кросс-модальных взаимодействий в расстройствах мозга среди разнородных наборов данных.

Краткое резюме

CALM - это новая структура для открытия биомаркеров, которая использует данные о мозге и генетической информации для нахождения взаимосвязей, даже если эти данные из различных источников. Это позволяет лучше изучать нейропсихиатрические расстройства, такие как аутизм.

Практический вывод

CALM может помочь исследователям эффективно использовать существующие унимодальные данные для изучения сложных взаимодействий между мозгом и генетикой.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. Хотя CALM демонстрирует обещающие результаты, его эффективность зависит от качества и разнообразия используемых данных. Кроме того, необходимо провести дальнейшие исследования для проверки универсальности метода на других нейропсихиатрических расстройствах.

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Биология
Биология
82%

Переломный момент 3D-фенотипирования растений: 3D-фундаментальные модели позволяют реконструкцию кросс-культур в масштабе от минут до секунд

3D-фенотипирование растений известно сложностью процедур и низкой производительностью из-за обширной многовидовой съемки, хрупкой цепочки 3D-реконструкции и дополнительных затрат на извлечение фенотипической информации из восстановленной геометрии. Эти ограничения усиливаются при низкозатратном сборе данных, когда видео со смартфонов или малонагруженные многовидовые изображения обеспечивают ограниченное перекрытие видов и самозатемнение. В этой работе мы показываем, что традиционную схему 3D-фенотипирования растений можно упростить и значительно ускорить с помощью 3D-фундаментальных моделей (3DFMs), и в частности, представляем одну из первых схем 3D-фенотипирования кросс-культур, основанную на 3DFMs. Эта схема заменяет разреженную инициализацию в стиле COLMAP на основанное на 3DFM геометрическое восстановление с прямой связью, сочетает 3D Gaussian Splatting с ограничениями по геометрии для плотной реконструкции, позволяет реконструировать из нескольких видов через итеративный синтез и уточнение видов и преобразует восстановленную геометрию в измеримые органы через семантический перенос из 2D в 3D, восстановление метрического масштаба и разделение экземпляров органов. Мы также создаем набор данных для кросс-культур с приобретением изображений на основе смартфонов, разнообразными морфологиями растений и ручными аннотациями для сегментации и фенотипической оценки. Эксперименты на 26 последовательностях растений показывают, что 3D-фундаментальные модели сокращают среднее время реконструкции с 6,52 минут до 1,58 секунд, сохраняя при этом высокое качество реконструкции и точность фенотипирования. Эти результаты предполагают новый технический путь для высокопроизводительного 3D-фенотипирования растений, начиная с недорогого получения изображений и заканчивая быстрой реконструкцией, восприятием, восстановлением масштаба и фенотипическим измерением.

Биология
Биология
77%

Иммунный кроссток микробиома при синдроме Шегрена: механистические инсайты и трансляционные перспективы.

Синдром Шегрена (СС) представляет собой системное аутоиммунное заболевание, обусловленное взаимодействиями между генетической предрасположенностью, экологическими факторами и изменениями в микробных экосистемах слизистых оболочек. Появляющиеся доказательства, полученные из исследований кишечника, полости рта и поверхности глаза, указывают на то, что микробная дисбиоз сильно ассоциирован с СС. У пациентов часто наблюдается снижение количества полезных комменсальных микроорганизмов и увеличение потенциально патогенных таксонов, что сопровождается нарушением эпителиального барьера, дисбалансом клеток Т-хелперов 17 и регуляторных Т-клеток, аномальными ответами B-клеток и устойчивой активацией сигнального пути интерферона типа I. Несколько механизмов могут способствовать развитию болезни, включая молекулярный мимикрий, экзосомально опосредованную иммунную коммуникацию и изменения в метаболитах, производимых микробиотой. Интегрированные мультиомические подходы, особенно высокопроизводительное секвенирование и метаболомика, выявили микробные сигнатуры и изменения метаболических путей, ассоциированные с СС, что открывает возможности для открытия биомаркеров и терапевтической целевой нацеленности. Стратегии, направленные на микробиоту, такие как пробиотическая поддержка, трансплантация фекальной микробиоты и исследования взаимодействий лекарств с микробиомом, показали перспективы для восстановления иммунной гомеостазы. Однако текущие доказательства остаются ограниченными малыми размерами когорты, методологической гетерогенностью и недостаточной ясностью причинно-следственных связей.

Биология
Биология
72%

DisciplineGen-1M: Массированный набор данных для многодисциплинарного визуального генерирования и редактирования

Недавние модели генерации и редактирования изображений могут создавать визуально привлекательные натуральные изображения, однако они остаются ненадежными, когда целевое изображение представляет собой знания-интенсивную диаграмму, корректность которой зависит от дисциплинарных концепций, символической структуры и точных пространственных отношений. Мы представляем DisciplineGen-1M, набор данных многодисциплинарного масштаба с миллионом образцов, который поддерживает генерацию изображений из текста и редактирование изображений. Он содержит 1,2 миллиона образцов из математики, физики, химии, биологии, географии, информатики, экономики, истории, музыки и спорта. Для создания набора данных мы разрабатываем масштабируемую структуру, которая объединяет рендеринг векторной графики, редактирование на основе OCR, программный синтез и крупномасштабную фильтрацию текстов в изображения. Эти рабочие процессы обеспечивают создание аннотаций, инструкций по редактированию, структурированных аннотаций и пар изображений с контролируемыми семантическими различиями. Основываясь на DisciplineGen-1M, мы дополнительно представляем модель генерации рассуждений, учитывающую дисциплину, для генерации изображений из текста и редактирования изображений. Эксперименты на связанных с дисциплиной моделях, GenExam и GRADE, показывают значительные улучшения по сравнению с открытыми эталонами, в то время как оценки на общих моделях, информированных рассуждениями, WISE и RISE, дополнительно указывают на более широкий перенос. Результаты свидетельствуют о том, что структурированные академические визуальные данные большого объема являются ключевым компонентом для перехода генерации изображений от эстетической правдоподобности к верифицируемому созданию визуального контента на основе знаний. Мы публично выпустим наш набор данных, модель и исходный код процесса кураторства данных, чтобы обеспечить воспроизводимость и содействовать будущим исследованиям.

Биология
Биология
72%

Структурированные гауссовские процессы для классификации омических данных с учетом неопределенности в условиях высокой размерности и малых выборок

Классификация гетерогенных омических данных по-прежнему остается основной проблемой в вычислительной биологии, особенно в условиях высокой размерности и малых выборок, где доминируют нелинейные взаимодействия, а дисбаланс классов дополнительно усложняет надежное предсказание редких фенотипов. Хотя традиционные методы на основе ядров полагаются на изобилие признаков, они не используют известные ландшафты взаимодействий биологических систем. В данной работе мы предлагаем структуру классификации на основе гауссовского процесса, которая интегрирует закодированные графом биологические пути непосредственно в конструкцию ядра. Пропагируя информацию вдоль известных сетей взаимодействия и комбинируя это с признаками, основанными на изобилии, полученный классификатор захватывает как количественные измерения, так и топологический контекст. Мы проводим оценку нашей предложенной методологии на трех общедоступных наборах данных по микробиому кишечника и кала. Для решения проблемы серьезного дисбаланса классов мы оцениваем дополнительные стратегии, включая ресемплирование на уровене данных, калибровку порогов и корректировки на основе матрицы замешательства, и сообщаем о результатах для класса меньшинства наряду с общей точностью. Гибридный подход дает прирост производительности по сравнению с неструктурированными базовыми решениями и соответствует показателям установленных эталонов для аналогичных наборов данных. Кроме того, вероятностная природа данного подхода естественным образом предоставляет откалиброванную предсказательную неопределенность, позволяя надежно различать уверенные предсказания и неоднозначные образцы.

Биология
Биология
72%

MERLIN-SUITE: Вероятностное модульное восстановление генетических регуляторных сетей из многомерных омных данных с интеграцией регуляторных приоритетов и активности транскрипционных факторов

Точное восстановление генетических регуляторных сетей (GRN) имеет решающее значение для понимания транскрипционных процессов в процессе развития и при заболеваниях. MERLIN-SUITE представляет собой набор алгоритмических расширений, основанных на MERLIN — вероятностной структуре, которая выводит специфические для генов и модуля регуляторные программы со-регулируемых модулей, захватывая как детализированные, так и модульные аспекты транскрипционных сетей. Хотя вывод на основе экспрессии эффективен, он часто плохо совпадает с экспериментально подтвержденными регуляторными взаимодействиями. MERLIN-P решает эту проблему, интегрируя внешние регуляторные приоритеты, такие как мотивы, данные ChIP и данные о perturbations, для повышения биологической значимости и предсказательной точности. MERLIN-P-TFA далее развивает структуру, внедряя регуляризованную оценку скрытой активности транскрипционных факторов, преодолевая ограничение, что уровни мРНК TF могут не представлять активность белка. Интегрируя данные о экспрессии, предшествующие знания и моделирование с учетом активности, этот унифицированный подход поддерживает надежное восстановление GRN как в объемных, так и в одноядерных наборах данных. Этот раздел представляет MERLIN-SUITE с акцентом на MERLIN-P-TFA и демонстрирует его использование на наборе данных мышиного клеточного перепрограммирования с несколькими модальностями для вывода GRN и идентификации ключевых регуляторов.

Биология
Биология
72%

GlycoMAC: Мультимасштабная метаболическая и гликозилирующая модель для предсказания гликозилирования в условиях культур млекопитающих клеток

Продуктивность антител и качество гликозилирования в культурах CHO возникают из динамически меняющейся метаболической среды, однако модели часто работают в изоляции или на одном уровне. В данной работе мы представляем мультимасштабную механистическую модель, связывающую молекулярный, клеточный и процессный уровни, для предсказания того, как входные параметры формируют траектории биопроцессов. Основой модели является кинетическая модель на уровне одной клетки, которая связывает метаболические и гликозилирующие сети, управляющие выходом и критическими качественными характеристиками (CQA). Стохастическая модель одной клетки описывает зависящие от окружающей среды переходы между ростом, производством и упадком, учитывая гетерогенность популяции. Мы также вводим накопительное изменение скорости поглощения кислорода, интегрируя общее метаболическое изменение со временем, как компактный биомаркер для предсказания метаболических изменений. В отличие от подходов, основанных на среднем по популяции, модель передает метаболические состояния с разрешением на уровень клеток (включая pH Гольджи, регулируемое аммиаком, доступность нуклеотидных сахаров, марганцевые кофакторы и скорость синтеза) в процесс гликозилирования. Модель была оценена на культурах CHO-K1, производящих VRC01 IgG1 при целевом стрессе от аммиака, в условиях контроля и с использованием стратегии пирамидальной подачи с более строгим контролем. Она точно предсказывает траектории плотности клеток, метаболитов, продуктивности и гликозилирования, включая увеличение G0F и снижение галактилирования при стрессе от аммиака, и количественно оценивает, как метаболическая гетерогенность влияет на изменчивость продуктивности и CQA. Эта работа предоставляет единое основание для предсказательной биопроизводства и продвинутого управления процессами.