Искусственный интеллект01.07.2026arXivScience Morning3 мин чтенияpreprint

Diffusion-GR2: Рекурсивный перестановщик генеративного вывода с диффузией

Diffusion-GR2: Diffusion Generative Reasoning Re-ranker

Карточка статьи

Рубрика: Искусственный интеллект
Источник: arXiv
Дата: 01.07.2026
Автор: Science Morning
Время чтения: 3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Аннотация

Генеративные рекурсивные перестановщики достигают высокой точности рекомендаций, испуская последовательность рассуждений перед перестановкой списка кандидатов, но они медленны при выводе: авторегрессионный (AR) декодер выполняет один последовательный проход для каждого токена рассуждения, а след рассуждения значительно превышает ту выборку, которую он производит. Для снижения этой стоимости языковые модели с блочной диффузией декодируют многие позиции параллельно на протяжении нескольких этапов денойзинга и работают существенно быстрее, однако наивное преобразование AR-рекурсивного перестановщика в блочный открывает два пробела в точности: (1) структурная разница: позиции ответов денойзятся параллельно и оцениваются независимо, в результате чего декодер выдает недействительные ранжирования (дубликаты, упущенные или вышедшие за пределы идентификаторы), которых AR избегает с помощью маскирования слева направо; (2) распределительная разница: тонкая настройка преобразованной модели по фиксированным траекториям учителя является внеполитической относительно собственного декодирования при выводе, оставляя остаточный пробел в точности. Чтобы устранить оба пробела, сохраняя ускорение, мы предлагаем \textbf{Diffusion-GR2}, метод, который преобразует наш AR-рекурсивный перестановщик (GR2) в блочный рекурсивный перестановщик с диффузией. Сначала тонкая настройка преобразования (CFT) адаптирует AR-инициализированную модель диффузии для денойзинга ответа в допустимую перестановку самостоятельно, без внешнего ограниченного декодера. Затем дистилляция на политике (OPD) контролирует модель по собственным декодированным траекториям с плотными целями на уровне токенов от AR-учителя. Наконец, мы применяем этап обучения с подкреплением (RL) в соответствии с вознаграждением за повторное ранжирование на основе политики OPD. Эксперименты на Amazon Beauty демонстрируют, что Diffusion-GR2 восстанавливается до близкого уровня с AR-рекурсивным перестановщиком, в то время как блочно-параллельное декодирование увеличивает объем вывода в $2.4$--$3.5\times$ при длине вывода модели рассуждения. Абляции показывают, что CFT восстанавливает большую часть пробела преобразования, и что дистилляция на политике дополнительно сокращает его до AR-референса.

Краткое резюме

Diffusion-GR2 - это новый подход к переработке генеративных рекурсивных перестановщиков, который использует блочную диффузию для повышения скорости вывода и улучшения точности. Испытывая на данных Amazon Beauty, модель показала близкие результаты к традиционным методам при значительном ускорении процесса.

Практический вывод

Метод Diffusion-GR2 позволяет существенно ускорить процессы ранжирования, сохраняя при этом высокую точность рекомендаций, что может быть полезно в задачах, требующих быстрого анализа данных.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. Исследование может иметь ограничения, связанные с общими результатами на ограниченных данных и потенциальной невозможностью обобщения модели на другие домены или типы данных.

Дальше по теме