Это предварительная публикация, она не прошла научное рецензирование.
Аннотация
Генеративные рекурсивные перестановщики достигают высокой точности рекомендаций, испуская последовательность рассуждений перед перестановкой списка кандидатов, но они медленны при выводе: авторегрессионный (AR) декодер выполняет один последовательный проход для каждого токена рассуждения, а след рассуждения значительно превышает ту выборку, которую он производит. Для снижения этой стоимости языковые модели с блочной диффузией декодируют многие позиции параллельно на протяжении нескольких этапов денойзинга и работают существенно быстрее, однако наивное преобразование AR-рекурсивного перестановщика в блочный открывает два пробела в точности: (1) структурная разница: позиции ответов денойзятся параллельно и оцениваются независимо, в результате чего декодер выдает недействительные ранжирования (дубликаты, упущенные или вышедшие за пределы идентификаторы), которых AR избегает с помощью маскирования слева направо; (2) распределительная разница: тонкая настройка преобразованной модели по фиксированным траекториям учителя является внеполитической относительно собственного декодирования при выводе, оставляя остаточный пробел в точности. Чтобы устранить оба пробела, сохраняя ускорение, мы предлагаем \textbf{Diffusion-GR2}, метод, который преобразует наш AR-рекурсивный перестановщик (GR2) в блочный рекурсивный перестановщик с диффузией. Сначала тонкая настройка преобразования (CFT) адаптирует AR-инициализированную модель диффузии для денойзинга ответа в допустимую перестановку самостоятельно, без внешнего ограниченного декодера. Затем дистилляция на политике (OPD) контролирует модель по собственным декодированным траекториям с плотными целями на уровне токенов от AR-учителя. Наконец, мы применяем этап обучения с подкреплением (RL) в соответствии с вознаграждением за повторное ранжирование на основе политики OPD. Эксперименты на Amazon Beauty демонстрируют, что Diffusion-GR2 восстанавливается до близкого уровня с AR-рекурсивным перестановщиком, в то время как блочно-параллельное декодирование увеличивает объем вывода в $2.4$--$3.5\times$ при длине вывода модели рассуждения. Абляции показывают, что CFT восстанавливает большую часть пробела преобразования, и что дистилляция на политике дополнительно сокращает его до AR-референса.
Краткое резюме
Diffusion-GR2 - это новый подход к переработке генеративных рекурсивных перестановщиков, который использует блочную диффузию для повышения скорости вывода и улучшения точности. Испытывая на данных Amazon Beauty, модель показала близкие результаты к традиционным методам при значительном ускорении процесса.
Практический вывод
Метод Diffusion-GR2 позволяет существенно ускорить процессы ранжирования, сохраняя при этом высокую точность рекомендаций, что может быть полезно в задачах, требующих быстрого анализа данных.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Исследование может иметь ограничения, связанные с общими результатами на ограниченных данных и потенциальной невозможностью обобщения модели на другие домены или типы данных.
Когда можно доверять ответу системы ИИ? Формальные помощники в доказательствах предлагают определенность, но не могут охватить большинство распределений задач; линейные LLM-судьи обеспечивают покрытие, но выдают непрозрачные оценки, которые не могут быть проверены после факта и подвержены тем же проблемам согласованности, что и любые LLM. Мы представляем Теорию — архитектуру верификации, которая заполняет этот пробел. Кандидатское решение переписывается в последовательность типизированных переходов состояний, каждый из которых оправдан явным обоснованием — будь то цитата, вычисление или заданный факт, и каждый переход может быть проверен независимо. Основное инвариантное требование состоит в полноте изменений: каждое отличие между последовательными состояниями доказательства должно быть учтено, чтобы скрытые предпосылки обнажались как несанкционированные мутации, а не проходили молча. На HLE-Verified Gold (185 задач для экспертов только с текстом) Теория сертифицирует 105 задач с 91.4% строгой точностью (доверительный интервал Уилсона 95% [84.5%, 95.4%]). Каждая сертификация приводит к читабельному следу доказательства, в котором каждый шаг может быть оспорен независимо. Холистические LLM-судьи достигают сопоставимой точности при аналогичном покрытии, но не справляются с разными задачами (Jaccard 0.14-0.36), что делает эти подходы дополнителями. Из 95 атакованных поврежденных доказательств в 15 областях структурированные судьи находят 94.7%, по сравнению с 83.2% для холистического судейства (p= 0.0017). В целом 11.5 процентных пункта разница сосредоточена на скрытых предпосылках (90.6% против 62.5%, разница в 28 процентных пунктов) и сфабрикованных цитатах (100% против 90%), что является классами ошибок, где формальный анализ предсказывает преимущество; производительность идентична в случаях арифметических и ошибочных применений теорем, где преимущество не предсказывается. На GPQA Diamond (n= 65) сертифицированная точность составила 97.1% (доверительный интервал Уилсона [85.1%, 99.5%]).
Мы представляем метод «Мир в движении», который позволяет создавать динамические 3D гауссовские представления из монокулярных видео, пригодные для произвольного рендеринга. Наш подход основывается на условной модели видео, которая использует плотные, пиксельно согласованные рендеры, кодирующие внешний вид, геометрию и движение 3D-сцены вдоль траекторий ввода и целевой камеры, чтобы исправить артефакты рендеринга и заполнить отсутствующие области исходной реконструкции. Для обучения этой модели мы создали набор данных, состоящий из выровненных пар многовидовых видео и динамических 3D гауссовских представлений, с имитированными артефактами, характерными для монокулярной реконструкции. На этапе тестирования мы извлекаем генерации модели, включая вновь наблюдаемые области и движения, обратно в единое согласованное, высококачественное динамическое 3D гауссовское представление, что улучшает как синтез новых видов, так и основное 3D движение. Наш метод устанавливает новый эталон в 4D реконструкции и беспесдно обобщается на видео с больших изменений ракурсов и динамическими движениями.
Генеративные модели на основе выборок все чаще используются для вероятностного прогнозирования в условиях высоких ставок, однако их цели обучения не обращают внимания на структуру затрат принятием решений. Обычно эти модели обучают с использованием строго корректных оценивательных правил, таких как энергетический рейтинг, которые распределяют сигнал обучения пропорционально плотности данных, не учитывая, где ошибки прогнозов наиболее затратны для последующих решений. Поэтому мы предлагаем обучение с учетом принятия решений для генеративных моделей на основе выборок, дополняя цель энергетического рейтинга дифференцируемой функцией потерь, которая непосредственно штрафует за затраты, понесенные при принятии решения на основе прогноза модели. Эта комбинированная функция потерь имеет теоретическую основу, поскольку функция потерь по решению сама по себе является корректным оценивательным правилом. Мы проверяем наш метод на одной синтетической и двух реальных задачах, демонстрируя целевые улучшения в чувствительных к затратам областях, при этом сохраняя полные вероятностные прогнозы.
Текущие исследования в области роботизированной сборки мебели в основном сосредоточены на игрушечных масштабах или манипуляциях с одной рукой. Мы представляем FurnitureVLA, первое систематическое исследование бимануальной сборки мебели в реальном масштабе с использованием моделей видения-языка-действия (VLA). Мы формализуем задачу, разрабатываем масштабируемый симуляционный конвейер для генерации и оценки экспертных данных и создаем систему телеприсутствия в виртуальной реальности для управления бимануально одним оператором с целью сбора качественных демонстраций из реального мира. Чтобы справиться с экстремально долгосрочной сборкой, которая включает до 7 подсостояний и 1550 контрольных шагов, мы предлагаем улучшенную модель VLA, донастроенную на семантически обоснованные подсостояния, которая совместно предсказывает действия и непрерывный сигнал прогресса, позволяя автоматически переходить между подсостояниями и снижая накопление ошибок во время вывода. Мы также исследуем факторы проектирования восприятия и управления, которые критически влияют на точность в сборке в реальном масштабе. FurnitureVLA улучшает средний уровень успеха симуляции с 48% до 80% по сравнению с базовыми показателями для трех типов мебели, с дополнительным приростом в 21% благодаря изучению факторов проектирования. Мы валидируем на реальной платформе Kinova Gen3 с только 16% снижением на наиболее сложной задаче.
Масштабирование вычислений во время вывода, путём генерации множества параллельных попыток для каждой задачи, является дорогостоящим, но надежным способом улучшения возможностей языковых моделей. По умолчанию эти попытки создаются независимо, что приводит к потере вычислений из-за дублирующих решений. Это desperdasto кажется неизбежным. В конечном счёте, независимость делает параллельную выборку тривиально масштабируемой. Однако этот компромисс не является фундаментальным: существует богатое пространство проектирования выборщиков, которые генерируют коррелированные, но точные выборки полностью в параллельном режиме. Мы исследуем это пространство проектирования как способ повышения эффективности выборки при масштабировании вычислений вывода и обучения с подкреплением (RL). Конкретно, мы представляем QuasiMoTTo, который использует коррелированные выборки в качестве замены для выборок i.i.d. Чтобы сгенерировать эти выборки, QuasiMoTTo использует репараметризацию автогрессионной выборки в качестве выборки обратной кумулятивной функции распределения и выбирает основное равномерное распределение с помощью квази-Монте-Карло (QMC); поскольку QMC распределяет равномерные значения более равномерно, чем i.i.d., полученные выборки охватывают выходное пространство с гораздо меньшей дубликацией. Несмотря на то, что выборка коррелирована, каждая выборка распределена маргинально в соответствии с языковой моделью, поэтому мы можем использовать пакет для обучения с использованием градиента политики. Наша эмпирическая работа сосредоточена на понимании того, насколько эффективно QuasiMoTTo может преобразовывать вычисления в производительность. Для оценки коррелированных выборщиков, зависимость которых нарушает стандартные оценщики pass@k, мы сначала разрабатываем unbiased bootstrap оценку. На четырёх бенчмарках рассуждений QuasiMoTTo достигает точности pass@k, аналогичной i.i.d., используя на 25-47% меньшее число выборок. Удивительно, что QuasiMoTTo часто достигает верхней границы на pass@k, которая сохраняется для любого выборщика, сохраняющего маргинальность. Мы также применяем QuasiMoTTo к обучению с градиентом политики RL (GRPO), где он соответствует производительности i.i.d. с 50% меньшим числом шагов обучения. Эти достижения связаны с большей охватностью, что приводит к сильному сигналу обучения на пакет.
Надежная система производства продуктов питания является краеугольным камнем обеспечения продовольственной безопасности. Интегрируя концептуальные значения устойчивости производства продуктов питания, данное исследование создает многомерную оценочную индексную систему, охватывающую устойчивость, восстановление и адаптивные способности. Используя панельные данные из Синьцзяна за период с 2010 по 2022 годы, исследование применяет интегрированную методологию, включая метод энтропийного веса, модифицированную гравитационную модель, анализ социальных сетей (SNA) и модель XGBoost-SHAP, для систематического анализа уровней устойчивости, характеристик структурной сети и основных механизмов, определяющих производство продуктов питания в регионе. Результаты показывают, что: с 2010 по 2022 годы уровень устойчивости производства продуктов питания в Синьцзяне демонстрировал непрерывный рост, характерный пространственной гетерогенностью с относительно узким разрывом. В течение исследуемого периода сетевое взаимодействие устойчивости производства продуктов питания в Синьцзяне становилось все более плотным; однако его характеризовало низкое сетевое плотность при топологии высокой кластеризации и коротком среднем пути. Наблюдались асимметричные особенности между регионами ввода и вывода, сопоставленные с уменьшением числа переноса между блоками. Площадь пашни на душу населения (X5), доступность транспортной инфраструктуры (X15), прогресс в сельскохозяйственных технологиях (X12) и среднегодовая температура (X1) заняли четыре первых места среди фактор влияния, при этом взаимодействие между площадью пашни на душу населения (X5) и доступностью транспортной инфраструктуры (X15) было наиболее значительным. Эти исследовательские выводы могут предоставить ценные ссылки для обеспечения продовольственной безопасности на уровне государства.