БиологияarXivScience Morning3 мин чтенияpreprint

Аффинаж: механистическая аннотация генома на основе опубликованной литературы

Affinage: genome-scale mechanistic gene annotation from the published literature

Рубрика
Биология
Источник
arXiv
Дата
02.07.2026
Автор
Science Morning
Время чтения
3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Биология

Аннотация

Понимание механистической функции гена является критически важной отправной точкой для биологии. Однако, для значительной части человеческого протеома эти знания разбросаны по тысячам первичных публикаций или остаются плохо установленными, в то время как кураторские базы данных, на которые полагаются биологи, могут отставать на годы от свежей литературы. Большие языковые модели теперь могут читать и синтезировать эту литературу по запросу, но делать это достоверно для многих генов — это дорогостоящая, неповторяемая сессия извлечения, которая не масштабируется среди пользователей. Здесь мы представляем Аффинаж, конвейер LLM, который выполняет это извлечение и механистическое рассуждение один раз для каждого гена — только на основе первичной литературы — и хранит результат в виде структурированной аннотации, которую можно повторно использовать. Программа чтения, разработанная биологами, извлекает только прямые экспериментальные доказательства, а синтетический этап рассуждает только на основе этих находок. Применяя анализ по всему геному, Аффинаж аннотирует 19 293 человеческих белок-кодирующих генов. Этот анализ предоставляет механизмы для тысяч генов, чей функционал в UniProt пуст или неполный, превосходя кураторские справочные материалы по 99.1% генов в прямом сравнении, оцененным независимо судьями LLM разных семейств. Аффинаж также определяет 10% протеома, которые остаются механистически не охарактеризованными, и будет служить постоянно обновляемым, основанным на литературе перепиской функций генов. Все записи доступны открыто по адресу https://affinage.wi.mit.edu. Более широко, Аффинаж служит примером того, как эксперты в области могут закодировать свои знания в масштабируемые конвейеры LLM, чтобы улучшить публично доступные данные, которые направляют биологические гипотезы и эксперименты.

Краткое резюме

Аффинаж представляет собой новый инструмент для аннотации генов, который использует большие языковые модели для извлечения и интерпретации данных из научной литературы. Он аннотирует более 19 000 белок-кодирующих генов человека, предоставляя механистические данные для генов с недостаточной информацией.

Практический вывод

Инструмент Аффинаж облегчает доступ к актуальной информации о функциях генов, что может значительно ускорить процессы научных исследований и разработки гипотез в биологии.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. Хотя Аффинаж эффективно аннотирует многие гены, оно основывается на существующей литературе, и его возможности зависят от доступности и качества этих данных. Некоторые гены могут быть недостаточно охарактеризованы в литературе, что ограничивает информацию, доступную через этот инструмент.

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Биология
Биология
92%

Ненавязчивое сканирование H3 K27M в педиатрической диффузной срединной глиоме с использованием радиомики на неоднородной МРТ с T2-взвешиванием

Статус мутации гистона H3K27M определяет клинически агрессивную подгруппу педиатрической диффузной срединной глиомы и влияет на прогноз и право участия в клинических испытаниях, однако подтверждение обычно требует биопсии из важных срединных структур. Мы оценили, может ли радиомика, основанная на стандартной МРТ с T2-взвешиванием, предоставить дополнительный сигнал для скрининга в неоднородной выборке, где сканирование часто выполняется внешними учреждениями, и MРТ с T2-взвешиванием является единственной последовательно доступной последовательностью. Было проанализировано 98 педиатрических пациентов с подтвержденным статусом по биопсии (73 с положительной мутацией, 25 с дикой формой). Экспертные сегментации опухоли определили области интереса для извлечения признаков PyRadiomics после изотропной переработки, двойного исключения черепной кости и фильтрации на разных масштабах. Мы систематически отключали предобработку, устраняли корреляцию с помощью повторного рекурсивного выбора признаков, объема опухоли и синтетической миноритарной агментации TabDDPM по 100 стратифицированным выборкам обучения/тестирования с реальными тестовыми наборами. Чистая радиомика достигла точности 0.664 и F1-оценки 0.784. Лучший процесс включал предобработку, выбор признаков и объем с CatBoost, достигнув точности 0.730 $\pm$ 0.068 и F1-оценки 0.826 $\pm$ 0.044. TabDDPM улучшил TabPFN до F1-оценки 0.81 $\pm$ 0.05 при 200 увеличенных строках. Эти результаты поддерживают использование радиомики на МРТ с T2-взвешиванием как умеренной вспомогательной помощи для скрининга и триажа, но не заменяют диагностику на основе ткани.

Биология
Биология
92%

Новый подход машинного обучения для классификации опухолей центральной нервной системы на основе метилирования ДНК

Профилирование метилирования ДНК стало мощным инструментом для классификации опухолей центральной нервной системы (ЦНС), однако существуют важные проблемы, касающиеся переносимости результатов между кохортами, методологической правильности и надежной многоклассовой оценки. В данной работе мы предлагаем новый и методологически строгий подход машинного обучения для классификации опухолей ЦНС на основе метилирования, который сочетает в себе метод разброса с разреженной проекцией для уменьшения размерности и многочленную логистическую регрессию для классификации. Мы оцениваем предложенный подход в том же общем экспериментальном контексте, который установлен широко используемым эталонным классификатором. В когорте из 2,801 образца наш метод достигает средней точности 96% при стратифицированной трехкратной перекрестной проверке. На независимой оценочной когорте из 1,104 образцов он достигает 86% точности на уровне 91 класса и 93% при оценке предсказаний на уровне семейства классов метилирования. Эти результаты превосходят соответствующие показатели современного эталона, составляя 82% согласованности на уровне классов и 88% согласованности на уровне семейства, что дает абсолютное увеличение примерно на 4 и 5 процентных пунктов соответственно. Это улучшение имеет клиническое значение: в диагностической практике увеличение на 5 пунктов в правильной классификации опухолей может напрямую повлиять на назначение подтипа рака и, в свою очередь, повлиять на выбор лечения и последующие клинические решения. Наши результаты показывают, что предложенная модель, основанная на более строгих методологических практиках в области машинного обучения, последовательно превосходит предыдущие современные достижения в различных условиях оценки и может существенно повысить надежность классификации опухолей ЦНС.

Биология
Биология
82%

DisciplineGen-1M: Массированный набор данных для многодисциплинарного визуального генерирования и редактирования

Недавние модели генерации и редактирования изображений могут создавать визуально привлекательные натуральные изображения, однако они остаются ненадежными, когда целевое изображение представляет собой знания-интенсивную диаграмму, корректность которой зависит от дисциплинарных концепций, символической структуры и точных пространственных отношений. Мы представляем DisciplineGen-1M, набор данных многодисциплинарного масштаба с миллионом образцов, который поддерживает генерацию изображений из текста и редактирование изображений. Он содержит 1,2 миллиона образцов из математики, физики, химии, биологии, географии, информатики, экономики, истории, музыки и спорта. Для создания набора данных мы разрабатываем масштабируемую структуру, которая объединяет рендеринг векторной графики, редактирование на основе OCR, программный синтез и крупномасштабную фильтрацию текстов в изображения. Эти рабочие процессы обеспечивают создание аннотаций, инструкций по редактированию, структурированных аннотаций и пар изображений с контролируемыми семантическими различиями. Основываясь на DisciplineGen-1M, мы дополнительно представляем модель генерации рассуждений, учитывающую дисциплину, для генерации изображений из текста и редактирования изображений. Эксперименты на связанных с дисциплиной моделях, GenExam и GRADE, показывают значительные улучшения по сравнению с открытыми эталонами, в то время как оценки на общих моделях, информированных рассуждениями, WISE и RISE, дополнительно указывают на более широкий перенос. Результаты свидетельствуют о том, что структурированные академические визуальные данные большого объема являются ключевым компонентом для перехода генерации изображений от эстетической правдоподобности к верифицируемому созданию визуального контента на основе знаний. Мы публично выпустим наш набор данных, модель и исходный код процесса кураторства данных, чтобы обеспечить воспроизводимость и содействовать будущим исследованиям.

Биология
Биология
77%

Развивающаяся роль биомаркеров за пределами антигена простаты при уточнении скрининга рака простаты: от анализов на основе крови до мочевых и генетических маркеров (Обзор).

Скрининг на антиген простаты (PSA) снижает смертность от рака простаты (PCa), но ограничен из-за переобследования и низкой специфичности для клинически значимой болезни. Эти ограничения подчеркивают необходимость более точных биомаркеров для различения агрессивных раков и инертных образований. Настоящий обзор исследовал продвинутые маркеры на основе крови, включая изоформы PSA, компоненты жидкой биопсии и индекс здоровья простаты; мочевые биомаркеры, такие как антиген рака простаты 3, фьюжн сериновой протеазы трансперембр качественного второго и панель MyProstateScore 2.0; и генетические маркеры, варьирующие от мутаций с высоким проникающим эффектом до полигеновых оценок риска. Дальше было рассмотрено интеграция этих биомаркеров с мультипараметрической МРТ, моделями калькуляторов риска и оценками для здравоохранения для оптимизации путей скрининга. Направления будущих исследований включают мультиомное профилирование, искусственный интеллект и новые технологии биосенсорики. Настоящий обзор направлен на то, чтобы предоставить всестороннюю и сбалансированную точку зрения на новые биомаркеры, которые изменяют персонализированный скрининг PCa.

Биология
Биология
72%

Ограничения идентифицируемости физически обоснованного вывода для пространственной стохастической динамики на основе статических снимков

Несмотря на увеличение масштаба и разрешения, многие биологические измерения остаются разрушительными, раскрывая лишь пространственную информацию, а не динамику, которую они кодируют. Совмещая гибкие представления с механистическими ограничениями, физически обоснованное машинное обучение предлагает многообещающий путь для вывода этих динамик из статических снимков. Исходя из субклеточной визуализации экспрессии генов, мы задаемся вопросом, когда статический пространственный паттерн молекул может идентифицировать пространственно изменяющуюся диффузию, создание, разрушение и обмен на границе, и как различные схемы вывода выполняют эту задачу. Структурный анализ идентифицируемости показывает, что распределенные источники не могут быть идентифицированы, тогда как точечный источник, такой как место транскрипции, может восстановить идентифицируемость. Эти ограничения дополнительно формируются, казалось бы, безобидными выборами моделей: граничные условия, пространственная регулярность базовой динамики и даже конвенция стохастического исчисления. Затем мы адаптируем несколько схем, основанных на физических принципах, отличающихся тем, как они представляют решение и учитывают управляющие уравнения, и демонстрируем эффективный вывод из одного снимка. Таким образом, подходы, основанные на физических принципах, могут восстановить пространственные гетерогенности биологических динамик из статических данных, но их использование должно сопровождаться и направляться тщательным анализом идентифицируемости для значительной интерпретации результатов.

Биология
Биология
72%

GlycoMAC: Мультимасштабная метаболическая и гликозилирующая модель для предсказания гликозилирования в условиях культур млекопитающих клеток

Продуктивность антител и качество гликозилирования в культурах CHO возникают из динамически меняющейся метаболической среды, однако модели часто работают в изоляции или на одном уровне. В данной работе мы представляем мультимасштабную механистическую модель, связывающую молекулярный, клеточный и процессный уровни, для предсказания того, как входные параметры формируют траектории биопроцессов. Основой модели является кинетическая модель на уровне одной клетки, которая связывает метаболические и гликозилирующие сети, управляющие выходом и критическими качественными характеристиками (CQA). Стохастическая модель одной клетки описывает зависящие от окружающей среды переходы между ростом, производством и упадком, учитывая гетерогенность популяции. Мы также вводим накопительное изменение скорости поглощения кислорода, интегрируя общее метаболическое изменение со временем, как компактный биомаркер для предсказания метаболических изменений. В отличие от подходов, основанных на среднем по популяции, модель передает метаболические состояния с разрешением на уровень клеток (включая pH Гольджи, регулируемое аммиаком, доступность нуклеотидных сахаров, марганцевые кофакторы и скорость синтеза) в процесс гликозилирования. Модель была оценена на культурах CHO-K1, производящих VRC01 IgG1 при целевом стрессе от аммиака, в условиях контроля и с использованием стратегии пирамидальной подачи с более строгим контролем. Она точно предсказывает траектории плотности клеток, метаболитов, продуктивности и гликозилирования, включая увеличение G0F и снижение галактилирования при стрессе от аммиака, и количественно оценивает, как метаболическая гетерогенность влияет на изменчивость продуктивности и CQA. Эта работа предоставляет единое основание для предсказательной биопроизводства и продвинутого управления процессами.