Структурированные гауссовские процессы для классификации омических данных с учетом неопределенности в условиях высокой размерности и малых выборок
Structured Gaussian Processes for Uncertainty-Aware Classification of High-Dimensional, Small-Sampled Omics Data
Карточка статьи
Рубрика
Биология
Источник
arXiv
Дата
02.07.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Аннотация
Классификация гетерогенных омических данных по-прежнему остается основной проблемой в вычислительной биологии, особенно в условиях высокой размерности и малых выборок, где доминируют нелинейные взаимодействия, а дисбаланс классов дополнительно усложняет надежное предсказание редких фенотипов. Хотя традиционные методы на основе ядров полагаются на изобилие признаков, они не используют известные ландшафты взаимодействий биологических систем. В данной работе мы предлагаем структуру классификации на основе гауссовского процесса, которая интегрирует закодированные графом биологические пути непосредственно в конструкцию ядра. Пропагируя информацию вдоль известных сетей взаимодействия и комбинируя это с признаками, основанными на изобилии, полученный классификатор захватывает как количественные измерения, так и топологический контекст. Мы проводим оценку нашей предложенной методологии на трех общедоступных наборах данных по микробиому кишечника и кала. Для решения проблемы серьезного дисбаланса классов мы оцениваем дополнительные стратегии, включая ресемплирование на уровене данных, калибровку порогов и корректировки на основе матрицы замешательства, и сообщаем о результатах для класса меньшинства наряду с общей точностью. Гибридный подход дает прирост производительности по сравнению с неструктурированными базовыми решениями и соответствует показателям установленных эталонов для аналогичных наборов данных. Кроме того, вероятностная природа данного подхода естественным образом предоставляет откалиброванную предсказательную неопределенность, позволяя надежно различать уверенные предсказания и неоднозначные образцы.
Краткое резюме
Данная работа представляет новый подход к классификации омических данных, сочетая структурированные гауссовские процессы с графами биологических путей, что позволяет улучшить качество предсказаний в условиях небольших выборок и дисбаланса классов.
Практический вывод
Предложенный метод может служить полезным инструментом для исследователей в области биологии, помогая более точно классифицировать омические данные с учетом сложности взаимодействий в биологических системах.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Ограничения исследования включают зависимость результатов от качества и полноты используемых данных, а также необходимость подтверждения предложенной методологии на более разнообразных наборах данных.
Недавние модели генерации и редактирования изображений могут создавать визуально привлекательные натуральные изображения, однако они остаются ненадежными, когда целевое изображение представляет собой знания-интенсивную диаграмму, корректность которой зависит от дисциплинарных концепций, символической структуры и точных пространственных отношений. Мы представляем DisciplineGen-1M, набор данных многодисциплинарного масштаба с миллионом образцов, который поддерживает генерацию изображений из текста и редактирование изображений. Он содержит 1,2 миллиона образцов из математики, физики, химии, биологии, географии, информатики, экономики, истории, музыки и спорта. Для создания набора данных мы разрабатываем масштабируемую структуру, которая объединяет рендеринг векторной графики, редактирование на основе OCR, программный синтез и крупномасштабную фильтрацию текстов в изображения. Эти рабочие процессы обеспечивают создание аннотаций, инструкций по редактированию, структурированных аннотаций и пар изображений с контролируемыми семантическими различиями. Основываясь на DisciplineGen-1M, мы дополнительно представляем модель генерации рассуждений, учитывающую дисциплину, для генерации изображений из текста и редактирования изображений. Эксперименты на связанных с дисциплиной моделях, GenExam и GRADE, показывают значительные улучшения по сравнению с открытыми эталонами, в то время как оценки на общих моделях, информированных рассуждениями, WISE и RISE, дополнительно указывают на более широкий перенос. Результаты свидетельствуют о том, что структурированные академические визуальные данные большого объема являются ключевым компонентом для перехода генерации изображений от эстетической правдоподобности к верифицируемому созданию визуального контента на основе знаний. Мы публично выпустим наш набор данных, модель и исходный код процесса кураторства данных, чтобы обеспечить воспроизводимость и содействовать будущим исследованиям.
Статус мутации гистона H3K27M определяет клинически агрессивную подгруппу педиатрической диффузной срединной глиомы и влияет на прогноз и право участия в клинических испытаниях, однако подтверждение обычно требует биопсии из важных срединных структур. Мы оценили, может ли радиомика, основанная на стандартной МРТ с T2-взвешиванием, предоставить дополнительный сигнал для скрининга в неоднородной выборке, где сканирование часто выполняется внешними учреждениями, и MРТ с T2-взвешиванием является единственной последовательно доступной последовательностью. Было проанализировано 98 педиатрических пациентов с подтвержденным статусом по биопсии (73 с положительной мутацией, 25 с дикой формой). Экспертные сегментации опухоли определили области интереса для извлечения признаков PyRadiomics после изотропной переработки, двойного исключения черепной кости и фильтрации на разных масштабах. Мы систематически отключали предобработку, устраняли корреляцию с помощью повторного рекурсивного выбора признаков, объема опухоли и синтетической миноритарной агментации TabDDPM по 100 стратифицированным выборкам обучения/тестирования с реальными тестовыми наборами. Чистая радиомика достигла точности 0.664 и F1-оценки 0.784. Лучший процесс включал предобработку, выбор признаков и объем с CatBoost, достигнув точности 0.730 $\pm$ 0.068 и F1-оценки 0.826 $\pm$ 0.044. TabDDPM улучшил TabPFN до F1-оценки 0.81 $\pm$ 0.05 при 200 увеличенных строках. Эти результаты поддерживают использование радиомики на МРТ с T2-взвешиванием как умеренной вспомогательной помощи для скрининга и триажа, но не заменяют диагностику на основе ткани.
Использование крупных языковых моделей (LLM) для молекул в качестве единой платформы для понимания молекулярных структур и функций становится новой тенденцией в таких задачах, как молекулярный дизайн и открытие лекарств. Тем не менее, эти модели не способны в полной мере отражать визуальное представление молекулярных структур, что ограничивает их потенциал. Хотя существующие молекулярные модели визуального языка (VLM) показывают обнадеживающие результаты, они по-прежнему сталкиваются с проблемами структурной подгонки и недостатком необходимого топологического моделирования для точного понимания молекул. Чтобы решить эту проблему, мы предлагаем MolSight — платформу модели визуального языка, учитывающую графы, предназначенную для повышения понимания молекулярных изображений с помощью VLM. MolSight интегрирует Модуль молекулярной топологии, чтобы внедрить информацию о соседстве химических связей в визуальные токены, и Модуль молекулярного сопоставления для согласования визуальных особенностей с химической символикой семантики. Наши эксперименты показывают, что MolSight значительно превосходит существующие VLM, молекулярные LLM и специализированные инструменты по множеству задач понимания химических изображений, достигая нового уровня рассуждений о молекулярных изображениях.
Точное восстановление генетических регуляторных сетей (GRN) имеет решающее значение для понимания транскрипционных процессов в процессе развития и при заболеваниях. MERLIN-SUITE представляет собой набор алгоритмических расширений, основанных на MERLIN — вероятностной структуре, которая выводит специфические для генов и модуля регуляторные программы со-регулируемых модулей, захватывая как детализированные, так и модульные аспекты транскрипционных сетей. Хотя вывод на основе экспрессии эффективен, он часто плохо совпадает с экспериментально подтвержденными регуляторными взаимодействиями. MERLIN-P решает эту проблему, интегрируя внешние регуляторные приоритеты, такие как мотивы, данные ChIP и данные о perturbations, для повышения биологической значимости и предсказательной точности. MERLIN-P-TFA далее развивает структуру, внедряя регуляризованную оценку скрытой активности транскрипционных факторов, преодолевая ограничение, что уровни мРНК TF могут не представлять активность белка. Интегрируя данные о экспрессии, предшествующие знания и моделирование с учетом активности, этот унифицированный подход поддерживает надежное восстановление GRN как в объемных, так и в одноядерных наборах данных. Этот раздел представляет MERLIN-SUITE с акцентом на MERLIN-P-TFA и демонстрирует его использование на наборе данных мышиного клеточного перепрограммирования с несколькими модальностями для вывода GRN и идентификации ключевых регуляторов.
Взаимосвязь между структурой мозга и генетическими влияниями играет ключевую роль в понимании нейропсихиатрических расстройств. Однако большинство крупных наборов данных являются унимодальными, предоставляя либо данные нейровизуализации, либо генетические данные. Мы предлагаем CALM, структуру, которая изучает интерпретируемые ассоциации между регионами интереса мозга и генетическими путями из совершенно разнородных популяций. CALM выравнивает две модальности в общем латентном пространстве через линейные проекции, которые одновременно сопоставляют классовые условные латентные распределения и обеспечивают отделимость групп. Эти проекции предоставляют интерпретируемые ассоциации путь-ROI. Когда модель обучается на унимодальных наборах данных из области изображения и генетики, CALM обобщается на невидимом парном наборе данных, превосходя несколько современных методов и базовые модели с абляцией. Мы также демонстрируем устойчивость изученных ассоциаций по сравнению с парной базовой моделью. Наши эксперименты по изучению расстройства аутистического спектра выявляют иммунные и метаболические пути, связанные с конкретными корковыми регионами, что соответствует установленной литературе. Таким образом, CALM открывает возможности для использования крупных унимодальных репозиториев для изучения кросс-модальных взаимодействий в расстройствах мозга среди разнородных наборов данных.
Генетические регуляторные сети (ГРС) описывают направленные отношения между регуляторами и целевыми генами, определяя шаблоны экспрессии генов специфично для клеточных типов. Технологии многократного омного секвенирования одиночных клеток, такие как секвенирование РНК одиночных клеток (scRNA-seq) и секвенирование для оценки доступности хроматина одиночной клетки (scATAC-seq), позволяют высокоточно измерять экспрессию генов и регуляцию, специфичные для клеточных типов, как никогда ранее. Тем не менее, инструменты для вывода специфичных для клеточных типов ГРС и моделирования их динамики по-прежнему остаются редкостью. Для содействия выводу и анализу специфичных для клеточных типов ГРС в контекстах, таких как клеточное развитие или прогрессирование заболеваний, где структура и динамика клеточных линий важны, мы разработали рамочные структуру многофункционального обучения, называемую выводом сетей на базе одиночных клеток (scMTNI). ScMTNI и его сопутствующие инструменты анализа сетей предлагают комплексный пакет для определения специфичных для клеточных типов ГРС и изучения их динамики. Эта глава книги описывает инструмент scMTNI и демонстрирует его применение к существующему набору данных о многомодальной репрограммировании одиночных клеток для вывода специфичных для клеточных типов ГРС и выявления ключевых регуляторов переходов клеточной судьбы во время репрограммирования клеток.