scMTNI: Использование клеточной траектории и контекста для вывода динамических генетических регуляторных сетей из данных многократно омных одиночных клеток
scMTNI: Leveraging cellular trajectory and context to infer dynamic GRNs from single-cell multi-omics data
Карточка статьи
Рубрика
Биология
Источник
arXiv
Дата
01.07.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Аннотация
Генетические регуляторные сети (ГРС) описывают направленные отношения между регуляторами и целевыми генами, определяя шаблоны экспрессии генов специфично для клеточных типов. Технологии многократного омного секвенирования одиночных клеток, такие как секвенирование РНК одиночных клеток (scRNA-seq) и секвенирование для оценки доступности хроматина одиночной клетки (scATAC-seq), позволяют высокоточно измерять экспрессию генов и регуляцию, специфичные для клеточных типов, как никогда ранее. Тем не менее, инструменты для вывода специфичных для клеточных типов ГРС и моделирования их динамики по-прежнему остаются редкостью. Для содействия выводу и анализу специфичных для клеточных типов ГРС в контекстах, таких как клеточное развитие или прогрессирование заболеваний, где структура и динамика клеточных линий важны, мы разработали рамочные структуру многофункционального обучения, называемую выводом сетей на базе одиночных клеток (scMTNI). ScMTNI и его сопутствующие инструменты анализа сетей предлагают комплексный пакет для определения специфичных для клеточных типов ГРС и изучения их динамики. Эта глава книги описывает инструмент scMTNI и демонстрирует его применение к существующему набору данных о многомодальной репрограммировании одиночных клеток для вывода специфичных для клеточных типов ГРС и выявления ключевых регуляторов переходов клеточной судьбы во время репрограммирования клеток.
Краткое резюме
Исследование представляет новый инструмент scMTNI для вывода специфичных для клеточных типов генетических регуляторных сетей на основе данных одиночных клеток. Этот подход позволяет анализировать динамику регуляции генов в контексте клеточного развития и заболеваний.
Практический вывод
Инструмент scMTNI может стать важным шагом в понимании механик клеточной регуляции и может помочь в идентификации ключевых факторов, влияющих на клеточные превращения.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Одним из ограничений данной работы является недостаток инструментов для вывода специфичных для клеточных типов ГРС и необходимость дальнейшего тестирования и валидации этого инструмента на других наборах данных и в различных биологических контекстах.
Влияние статинов на эректильную дисфункцию (ЭД) остается предметом интенсивных клинических дискуссий. Предыдущие наблюдательные исследования дали непоследовательные результаты и часто ограничены факторами спутания и обратной причинностью. Чтобы исследовать причинную связь между использованием статинов и риском ЭД, было проведено анализ с использованием двух образцов Менделевской рандомизации на основе данных об ассоциации геномов из UK Biobank и FinnGen. Генетические варианты для общих статинов и специфических типов (аторвастатин, симвастатин и розувастатин) использовались в качестве инструментария. Основной эффект оценивался с использованием метода взвешенного обратного дисперсионного анализа (IVW). Были проведены анализы чувствительности, включая MR-Egger, взвешенное медианное, MR-PRESSO и анализ «оставь один», чтобы обеспечить надежность результатов, а также тест направления MR Steiger для проверки причинной ориентации. Анализ IVW показал, что общее использование статинов связано с повышенным риском ЭД (OR = 1.064; 95% CI, 1.011-1.119; p = .018). Подгрупповый анализ показал, что липофильные статины значительно увеличивают риск ЭД: аторвастатин (OR = 27.892; 95% CI, 1.912-40.977; p = .015) и симвастатин (OR = 4.948; 95% CI, 1.598-15.319; p = .006). В то же время, причинная связь для гидрофильного розувастатина не была установлена (p = .428). Анализы чувствительности подтвердили отсутствие горизонтального плеиотропизма и гетерогенности. Тест направления MR Steiger подтвердил, что причинное направление от использования статинов к ЭД является надежным. Кроме того, анализ «оставь один» продемонстрировал, что общие результаты не обусловлены каким-либо отдельным SNP. Использование статинов, в частности аторвастатина и симвастатина, причинно увеличивает риск ЭД, в то время как розувастатин, похоже, имеет нейтральный эффект.
Точное восстановление генетических регуляторных сетей (GRN) имеет решающее значение для понимания транскрипционных процессов в процессе развития и при заболеваниях. MERLIN-SUITE представляет собой набор алгоритмических расширений, основанных на MERLIN — вероятностной структуре, которая выводит специфические для генов и модуля регуляторные программы со-регулируемых модулей, захватывая как детализированные, так и модульные аспекты транскрипционных сетей. Хотя вывод на основе экспрессии эффективен, он часто плохо совпадает с экспериментально подтвержденными регуляторными взаимодействиями. MERLIN-P решает эту проблему, интегрируя внешние регуляторные приоритеты, такие как мотивы, данные ChIP и данные о perturbations, для повышения биологической значимости и предсказательной точности. MERLIN-P-TFA далее развивает структуру, внедряя регуляризованную оценку скрытой активности транскрипционных факторов, преодолевая ограничение, что уровни мРНК TF могут не представлять активность белка. Интегрируя данные о экспрессии, предшествующие знания и моделирование с учетом активности, этот унифицированный подход поддерживает надежное восстановление GRN как в объемных, так и в одноядерных наборах данных. Этот раздел представляет MERLIN-SUITE с акцентом на MERLIN-P-TFA и демонстрирует его использование на наборе данных мышиного клеточного перепрограммирования с несколькими модальностями для вывода GRN и идентификации ключевых регуляторов.
Несмотря на увеличение масштаба и разрешения, многие биологические измерения остаются разрушительными, раскрывая лишь пространственную информацию, а не динамику, которую они кодируют. Совмещая гибкие представления с механистическими ограничениями, физически обоснованное машинное обучение предлагает многообещающий путь для вывода этих динамик из статических снимков. Исходя из субклеточной визуализации экспрессии генов, мы задаемся вопросом, когда статический пространственный паттерн молекул может идентифицировать пространственно изменяющуюся диффузию, создание, разрушение и обмен на границе, и как различные схемы вывода выполняют эту задачу. Структурный анализ идентифицируемости показывает, что распределенные источники не могут быть идентифицированы, тогда как точечный источник, такой как место транскрипции, может восстановить идентифицируемость. Эти ограничения дополнительно формируются, казалось бы, безобидными выборами моделей: граничные условия, пространственная регулярность базовой динамики и даже конвенция стохастического исчисления. Затем мы адаптируем несколько схем, основанных на физических принципах, отличающихся тем, как они представляют решение и учитывают управляющие уравнения, и демонстрируем эффективный вывод из одного снимка. Таким образом, подходы, основанные на физических принципах, могут восстановить пространственные гетерогенности биологических динамик из статических данных, но их использование должно сопровождаться и направляться тщательным анализом идентифицируемости для значительной интерпретации результатов.
Продуктивность антител и качество гликозилирования в культурах CHO возникают из динамически меняющейся метаболической среды, однако модели часто работают в изоляции или на одном уровне. В данной работе мы представляем мультимасштабную механистическую модель, связывающую молекулярный, клеточный и процессный уровни, для предсказания того, как входные параметры формируют траектории биопроцессов. Основой модели является кинетическая модель на уровне одной клетки, которая связывает метаболические и гликозилирующие сети, управляющие выходом и критическими качественными характеристиками (CQA). Стохастическая модель одной клетки описывает зависящие от окружающей среды переходы между ростом, производством и упадком, учитывая гетерогенность популяции. Мы также вводим накопительное изменение скорости поглощения кислорода, интегрируя общее метаболическое изменение со временем, как компактный биомаркер для предсказания метаболических изменений. В отличие от подходов, основанных на среднем по популяции, модель передает метаболические состояния с разрешением на уровень клеток (включая pH Гольджи, регулируемое аммиаком, доступность нуклеотидных сахаров, марганцевые кофакторы и скорость синтеза) в процесс гликозилирования. Модель была оценена на культурах CHO-K1, производящих VRC01 IgG1 при целевом стрессе от аммиака, в условиях контроля и с использованием стратегии пирамидальной подачи с более строгим контролем. Она точно предсказывает траектории плотности клеток, метаболитов, продуктивности и гликозилирования, включая увеличение G0F и снижение галактилирования при стрессе от аммиака, и количественно оценивает, как метаболическая гетерогенность влияет на изменчивость продуктивности и CQA. Эта работа предоставляет единое основание для предсказательной биопроизводства и продвинутого управления процессами.
Статус мутации гистона H3K27M определяет клинически агрессивную подгруппу педиатрической диффузной срединной глиомы и влияет на прогноз и право участия в клинических испытаниях, однако подтверждение обычно требует биопсии из важных срединных структур. Мы оценили, может ли радиомика, основанная на стандартной МРТ с T2-взвешиванием, предоставить дополнительный сигнал для скрининга в неоднородной выборке, где сканирование часто выполняется внешними учреждениями, и MРТ с T2-взвешиванием является единственной последовательно доступной последовательностью. Было проанализировано 98 педиатрических пациентов с подтвержденным статусом по биопсии (73 с положительной мутацией, 25 с дикой формой). Экспертные сегментации опухоли определили области интереса для извлечения признаков PyRadiomics после изотропной переработки, двойного исключения черепной кости и фильтрации на разных масштабах. Мы систематически отключали предобработку, устраняли корреляцию с помощью повторного рекурсивного выбора признаков, объема опухоли и синтетической миноритарной агментации TabDDPM по 100 стратифицированным выборкам обучения/тестирования с реальными тестовыми наборами. Чистая радиомика достигла точности 0.664 и F1-оценки 0.784. Лучший процесс включал предобработку, выбор признаков и объем с CatBoost, достигнув точности 0.730 $\pm$ 0.068 и F1-оценки 0.826 $\pm$ 0.044. TabDDPM улучшил TabPFN до F1-оценки 0.81 $\pm$ 0.05 при 200 увеличенных строках. Эти результаты поддерживают использование радиомики на МРТ с T2-взвешиванием как умеренной вспомогательной помощи для скрининга и триажа, но не заменяют диагностику на основе ткани.
Оценка пикового распространения является центральной проблемой в модели эпидемий, поскольку она определяет период максимальной инфекционной нагрузки и тесно связана с потребностью в медицинском обслуживании. Однако в многогранных моделях SIR пиковое распространение, как правило, менее поддается анализу, чем в классической модели с экспоненциально распределенными инфекционными периодами. Вдохновленные использованием весовых агрегатов инфекционных стадий в качестве суррогатов для распространения, мы исследуем взаимосвязь между пиковым распространением и максимумом весовой функциональной стадии в детерминированных моделях SI$(k)$R эпидемий. Мы показываем, что эта взаимосвязь критически зависит от того, как масштабируется скорость прогрессирования стадий по мере увеличения числа инфекционных стадий. При наивном масштабировании, в котором скорость прогрессирования остается фиксированной, весовой пик асимптотически эквивалентен пиковому распространению, и общепринятое приближение с коэффициентом два оказывается не удачным. При масштабировании по Эрлангу, которое сохраняет средний инфекционный период, многогранная модель сходится к замедленной формулировке, в которой распространение и весовая функциональная стадия становятся невесовыми и треугольными средними скользящими по заболеваемости. Эта предельная репрезентация предоставляет теоретическую основу для приближения с коэффициентом два и определяет режимы, в которых оно работает точно. Она также объясняет, почему это приближение ухудшается, когда эпидемические волны становятся более остро пиковыми. Мы выводим аналитические границы ошибок и разрабатываем корректировки, основанные на кривизне и параметрах, которые значительно улучшают точность. Численные исследования подтверждают эти улучшения для широкого диапазона эпидемиологических параметров. В целом, результаты показывают, когда весовые пики стадий могут надежно использоваться в качестве прокси для пикового распространения и как полученные оценки можно уточнять, когда стандартное приближение теряет точность.