DisciplineGen-1M: Массированный набор данных для многодисциплинарного визуального генерирования и редактирования
DisciplineGen-1M: A Large-Scale Dataset for Multidisciplinary Visual Generation and Editing
Карточка статьи
- Рубрика
- Биология
- Источник
- arXiv
- Дата
- 02.07.2026
- Автор
- Science Morning
- Время чтения
- 3 мин
Это предварительная публикация, она не прошла научное рецензирование.

Аннотация
Недавние модели генерации и редактирования изображений могут создавать визуально привлекательные натуральные изображения, однако они остаются ненадежными, когда целевое изображение представляет собой знания-интенсивную диаграмму, корректность которой зависит от дисциплинарных концепций, символической структуры и точных пространственных отношений. Мы представляем DisciplineGen-1M, набор данных многодисциплинарного масштаба с миллионом образцов, который поддерживает генерацию изображений из текста и редактирование изображений. Он содержит 1,2 миллиона образцов из математики, физики, химии, биологии, географии, информатики, экономики, истории, музыки и спорта. Для создания набора данных мы разрабатываем масштабируемую структуру, которая объединяет рендеринг векторной графики, редактирование на основе OCR, программный синтез и крупномасштабную фильтрацию текстов в изображения. Эти рабочие процессы обеспечивают создание аннотаций, инструкций по редактированию, структурированных аннотаций и пар изображений с контролируемыми семантическими различиями. Основываясь на DisciplineGen-1M, мы дополнительно представляем модель генерации рассуждений, учитывающую дисциплину, для генерации изображений из текста и редактирования изображений. Эксперименты на связанных с дисциплиной моделях, GenExam и GRADE, показывают значительные улучшения по сравнению с открытыми эталонами, в то время как оценки на общих моделях, информированных рассуждениями, WISE и RISE, дополнительно указывают на более широкий перенос. Результаты свидетельствуют о том, что структурированные академические визуальные данные большого объема являются ключевым компонентом для перехода генерации изображений от эстетической правдоподобности к верифицируемому созданию визуального контента на основе знаний. Мы публично выпустим наш набор данных, модель и исходный код процесса кураторства данных, чтобы обеспечить воспроизводимость и содействовать будущим исследованиям.
Краткое резюме
DisciplineGen-1M — это новый крупномасштабный набор данных для генерации и редактирования изображений с учетом дисциплинарных концепций, включающий более миллиона образцов из различных научных областей.
Практический вывод
Данный набор данных и разработанная модель представляют собой важный шаг к улучшению генерации изображений, основанных на знаниях, что поможет в применениях от образования до научных исследований.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Хотя набор данных DisciplineGen-1M охватывает множество дисциплин, он не включает все возможные области знаний, что может ограничить его универсальность. Кроме того, как и любая система на основе данных, она может сталкиваться с предвзятостью в данных и их интерпретации.
