БиологияarXivScience Morning3 мин чтенияpreprint

DisciplineGen-1M: Массированный набор данных для многодисциплинарного визуального генерирования и редактирования

DisciplineGen-1M: A Large-Scale Dataset for Multidisciplinary Visual Generation and Editing

Рубрика
Биология
Источник
arXiv
Дата
02.07.2026
Автор
Science Morning
Время чтения
3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Биология

Аннотация

Недавние модели генерации и редактирования изображений могут создавать визуально привлекательные натуральные изображения, однако они остаются ненадежными, когда целевое изображение представляет собой знания-интенсивную диаграмму, корректность которой зависит от дисциплинарных концепций, символической структуры и точных пространственных отношений. Мы представляем DisciplineGen-1M, набор данных многодисциплинарного масштаба с миллионом образцов, который поддерживает генерацию изображений из текста и редактирование изображений. Он содержит 1,2 миллиона образцов из математики, физики, химии, биологии, географии, информатики, экономики, истории, музыки и спорта. Для создания набора данных мы разрабатываем масштабируемую структуру, которая объединяет рендеринг векторной графики, редактирование на основе OCR, программный синтез и крупномасштабную фильтрацию текстов в изображения. Эти рабочие процессы обеспечивают создание аннотаций, инструкций по редактированию, структурированных аннотаций и пар изображений с контролируемыми семантическими различиями. Основываясь на DisciplineGen-1M, мы дополнительно представляем модель генерации рассуждений, учитывающую дисциплину, для генерации изображений из текста и редактирования изображений. Эксперименты на связанных с дисциплиной моделях, GenExam и GRADE, показывают значительные улучшения по сравнению с открытыми эталонами, в то время как оценки на общих моделях, информированных рассуждениями, WISE и RISE, дополнительно указывают на более широкий перенос. Результаты свидетельствуют о том, что структурированные академические визуальные данные большого объема являются ключевым компонентом для перехода генерации изображений от эстетической правдоподобности к верифицируемому созданию визуального контента на основе знаний. Мы публично выпустим наш набор данных, модель и исходный код процесса кураторства данных, чтобы обеспечить воспроизводимость и содействовать будущим исследованиям.

Краткое резюме

DisciplineGen-1M — это новый крупномасштабный набор данных для генерации и редактирования изображений с учетом дисциплинарных концепций, включающий более миллиона образцов из различных научных областей.

Практический вывод

Данный набор данных и разработанная модель представляют собой важный шаг к улучшению генерации изображений, основанных на знаниях, что поможет в применениях от образования до научных исследований.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. Хотя набор данных DisciplineGen-1M охватывает множество дисциплин, он не включает все возможные области знаний, что может ограничить его универсальность. Кроме того, как и любая система на основе данных, она может сталкиваться с предвзятостью в данных и их интерпретации.

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Биология
Биология
92%

Аффинаж: механистическая аннотация генома на основе опубликованной литературы

Понимание механистической функции гена является критически важной отправной точкой для биологии. Однако, для значительной части человеческого протеома эти знания разбросаны по тысячам первичных публикаций или остаются плохо установленными, в то время как кураторские базы данных, на которые полагаются биологи, могут отставать на годы от свежей литературы. Большие языковые модели теперь могут читать и синтезировать эту литературу по запросу, но делать это достоверно для многих генов — это дорогостоящая, неповторяемая сессия извлечения, которая не масштабируется среди пользователей. Здесь мы представляем Аффинаж, конвейер LLM, который выполняет это извлечение и механистическое рассуждение один раз для каждого гена — только на основе первичной литературы — и хранит результат в виде структурированной аннотации, которую можно повторно использовать. Программа чтения, разработанная биологами, извлекает только прямые экспериментальные доказательства, а синтетический этап рассуждает только на основе этих находок. Применяя анализ по всему геному, Аффинаж аннотирует 19 293 человеческих белок-кодирующих генов. Этот анализ предоставляет механизмы для тысяч генов, чей функционал в UniProt пуст или неполный, превосходя кураторские справочные материалы по 99.1% генов в прямом сравнении, оцененным независимо судьями LLM разных семейств. Аффинаж также определяет 10% протеома, которые остаются механистически не охарактеризованными, и будет служить постоянно обновляемым, основанным на литературе перепиской функций генов. Все записи доступны открыто по адресу https://affinage.wi.mit.edu. Более широко, Аффинаж служит примером того, как эксперты в области могут закодировать свои знания в масштабируемые конвейеры LLM, чтобы улучшить публично доступные данные, которые направляют биологические гипотезы и эксперименты.

Биология
Биология
92%

Структурированные гауссовские процессы для классификации омических данных с учетом неопределенности в условиях высокой размерности и малых выборок

Классификация гетерогенных омических данных по-прежнему остается основной проблемой в вычислительной биологии, особенно в условиях высокой размерности и малых выборок, где доминируют нелинейные взаимодействия, а дисбаланс классов дополнительно усложняет надежное предсказание редких фенотипов. Хотя традиционные методы на основе ядров полагаются на изобилие признаков, они не используют известные ландшафты взаимодействий биологических систем. В данной работе мы предлагаем структуру классификации на основе гауссовского процесса, которая интегрирует закодированные графом биологические пути непосредственно в конструкцию ядра. Пропагируя информацию вдоль известных сетей взаимодействия и комбинируя это с признаками, основанными на изобилии, полученный классификатор захватывает как количественные измерения, так и топологический контекст. Мы проводим оценку нашей предложенной методологии на трех общедоступных наборах данных по микробиому кишечника и кала. Для решения проблемы серьезного дисбаланса классов мы оцениваем дополнительные стратегии, включая ресемплирование на уровене данных, калибровку порогов и корректировки на основе матрицы замешательства, и сообщаем о результатах для класса меньшинства наряду с общей точностью. Гибридный подход дает прирост производительности по сравнению с неструктурированными базовыми решениями и соответствует показателям установленных эталонов для аналогичных наборов данных. Кроме того, вероятностная природа данного подхода естественным образом предоставляет откалиброванную предсказательную неопределенность, позволяя надежно различать уверенные предсказания и неоднозначные образцы.

Биология
Биология
92%

scMTNI: Использование клеточной траектории и контекста для вывода динамических генетических регуляторных сетей из данных многократно омных одиночных клеток

Генетические регуляторные сети (ГРС) описывают направленные отношения между регуляторами и целевыми генами, определяя шаблоны экспрессии генов специфично для клеточных типов. Технологии многократного омного секвенирования одиночных клеток, такие как секвенирование РНК одиночных клеток (scRNA-seq) и секвенирование для оценки доступности хроматина одиночной клетки (scATAC-seq), позволяют высокоточно измерять экспрессию генов и регуляцию, специфичные для клеточных типов, как никогда ранее. Тем не менее, инструменты для вывода специфичных для клеточных типов ГРС и моделирования их динамики по-прежнему остаются редкостью. Для содействия выводу и анализу специфичных для клеточных типов ГРС в контекстах, таких как клеточное развитие или прогрессирование заболеваний, где структура и динамика клеточных линий важны, мы разработали рамочные структуру многофункционального обучения, называемую выводом сетей на базе одиночных клеток (scMTNI). ScMTNI и его сопутствующие инструменты анализа сетей предлагают комплексный пакет для определения специфичных для клеточных типов ГРС и изучения их динамики. Эта глава книги описывает инструмент scMTNI и демонстрирует его применение к существующему набору данных о многомодальной репрограммировании одиночных клеток для вывода специфичных для клеточных типов ГРС и выявления ключевых регуляторов переходов клеточной судьбы во время репрограммирования клеток.

Биология
Биология
90%

MERLIN-SUITE: Вероятностное модульное восстановление генетических регуляторных сетей из многомерных омных данных с интеграцией регуляторных приоритетов и активности транскрипционных факторов

Точное восстановление генетических регуляторных сетей (GRN) имеет решающее значение для понимания транскрипционных процессов в процессе развития и при заболеваниях. MERLIN-SUITE представляет собой набор алгоритмических расширений, основанных на MERLIN — вероятностной структуре, которая выводит специфические для генов и модуля регуляторные программы со-регулируемых модулей, захватывая как детализированные, так и модульные аспекты транскрипционных сетей. Хотя вывод на основе экспрессии эффективен, он часто плохо совпадает с экспериментально подтвержденными регуляторными взаимодействиями. MERLIN-P решает эту проблему, интегрируя внешние регуляторные приоритеты, такие как мотивы, данные ChIP и данные о perturbations, для повышения биологической значимости и предсказательной точности. MERLIN-P-TFA далее развивает структуру, внедряя регуляризованную оценку скрытой активности транскрипционных факторов, преодолевая ограничение, что уровни мРНК TF могут не представлять активность белка. Интегрируя данные о экспрессии, предшествующие знания и моделирование с учетом активности, этот унифицированный подход поддерживает надежное восстановление GRN как в объемных, так и в одноядерных наборах данных. Этот раздел представляет MERLIN-SUITE с акцентом на MERLIN-P-TFA и демонстрирует его использование на наборе данных мышиного клеточного перепрограммирования с несколькими модальностями для вывода GRN и идентификации ключевых регуляторов.

Биология
Биология
82%

MolSight: Модель визуального языка с учетом графов для универсального понимания химических изображений

Использование крупных языковых моделей (LLM) для молекул в качестве единой платформы для понимания молекулярных структур и функций становится новой тенденцией в таких задачах, как молекулярный дизайн и открытие лекарств. Тем не менее, эти модели не способны в полной мере отражать визуальное представление молекулярных структур, что ограничивает их потенциал. Хотя существующие молекулярные модели визуального языка (VLM) показывают обнадеживающие результаты, они по-прежнему сталкиваются с проблемами структурной подгонки и недостатком необходимого топологического моделирования для точного понимания молекул. Чтобы решить эту проблему, мы предлагаем MolSight — платформу модели визуального языка, учитывающую графы, предназначенную для повышения понимания молекулярных изображений с помощью VLM. MolSight интегрирует Модуль молекулярной топологии, чтобы внедрить информацию о соседстве химических связей в визуальные токены, и Модуль молекулярного сопоставления для согласования визуальных особенностей с химической символикой семантики. Наши эксперименты показывают, что MolSight значительно превосходит существующие VLM, молекулярные LLM и специализированные инструменты по множеству задач понимания химических изображений, достигая нового уровня рассуждений о молекулярных изображениях.

Биология
Биология
82%

CALM: Интерпретируемая кросс-модальная выравниваемость для открытия биомаркеров на основе непарных данных

Взаимосвязь между структурой мозга и генетическими влияниями играет ключевую роль в понимании нейропсихиатрических расстройств. Однако большинство крупных наборов данных являются унимодальными, предоставляя либо данные нейровизуализации, либо генетические данные. Мы предлагаем CALM, структуру, которая изучает интерпретируемые ассоциации между регионами интереса мозга и генетическими путями из совершенно разнородных популяций. CALM выравнивает две модальности в общем латентном пространстве через линейные проекции, которые одновременно сопоставляют классовые условные латентные распределения и обеспечивают отделимость групп. Эти проекции предоставляют интерпретируемые ассоциации путь-ROI. Когда модель обучается на унимодальных наборах данных из области изображения и генетики, CALM обобщается на невидимом парном наборе данных, превосходя несколько современных методов и базовые модели с абляцией. Мы также демонстрируем устойчивость изученных ассоциаций по сравнению с парной базовой моделью. Наши эксперименты по изучению расстройства аутистического спектра выявляют иммунные и метаболические пути, связанные с конкретными корковыми регионами, что соответствует установленной литературе. Таким образом, CALM открывает возможности для использования крупных унимодальных репозиториев для изучения кросс-модальных взаимодействий в расстройствах мозга среди разнородных наборов данных.