Искусственный интеллектarXivScience Morning3 мин чтенияpreprint

Обучение предпочтениям в произвольной форме для робототехнической манипуляции

Freeform Preference Learning for Robotic Manipulation

Рубрика
Искусственный интеллект
Источник
arXiv
Дата
30.06.2026
Автор
Science Morning
Время чтения
3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Искусственный интеллект

Аннотация

Дизайн вознаграждений остается центральным узким местом для улучшения политики автономных роботов, особенно в задачах манипуляции с длительным горизонтом, где разрозненные метки успеха предоставляют слишком слабый сигнал, а бинарные предпочтения сводят множество конкурирующих представлений о качестве в один неоднозначный сигнал. Мы представляем Метод Обучения Предпочтениям в Произвольной Форме (FPL), который позволяет обучать роботам на основе произвольных человеческих предпочтений. Вместо того чтобы спрашивать аннотаторов, какая из двух траекторий лучше в целом, FPL позволяет им определять оси предпочтений на естественном языке, такие как скорость, безопасность, качество размещения или аккуратность, и предоставлять парные предпочтения вдоль каждой оси. Эти аннотации используются для обучения модели вознаграждения, обусловленной языком, которая преобразует траекторию и метку предпочтения в вознаграждение, специфичное для оси. Мы используем эту модель для обучения политики, обусловленной вознаграждением, которая оптимизирует по нескольким заданным человеком измерениям. В четырех реальных задачах манипуляции и двух смоделированных задачах с длительным горизонтом FPL превосходит методы с разрозненным вознаграждением и бинарными предпочтениями на 38 процентных пунктов. Помимо улучшенной производительности, FPL обучает плотные сигналы прогресса без явной сегментации подтасков, демонстрирует композиционность поведения, отсутствующую в данных, и позволяет пользователям направлять политику к различным видам поведения на этапе тестирования без повторного обучения. Запись в блоге с видео доступна по адресу https://freeform-pl.github.io/fpl.website/

Краткое резюме

Метод обучения предпочтениям в произвольной форме (FPL) позволяет роботам обучаться на основе естественно заданных человеческих предпочтений, что существенно улучшает качество манипуляции в сравнении с традиционными методами. FPL применяет оси предпочтений, определенные пользователями, для создания оптимизированной политики действий на основе многообразных сигналов вознаграждения.

Практический вывод

Метод FPL предоставляет более гибкие и точные механизмы для обучения робототехнических систем, позволяя пользователям задавать предпочтения в человеческом языке и тем самым улучшать качество выполнения задач манипуляции.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. Ограничения метода FPL могут включать необходимость в большом количестве аннотаций от пользователей для точной настройки модели и зависимость от качества определяемых предпочтений, а также потенциальные проблемы с масштабируемостью на более сложных задачах.

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Искусственный интеллект
Искусственный интеллект
100%

Хватает ли одного слоя? Обучение одного слоя трансформера может сопоставиться с полным обучением с подкреплением

Обучение с подкреплением (RL) стало центральным компонентом постобучения крупных языковых моделей (LLMs), однако мало что известно о том, как адаптация RL распределена по слоям трансформера. Существующие подходы обычно обновляют все параметры модели равномерно, подразумевая, что каждый слой вносит схожий вклад в приросты, достигнутые в процессе постобучения с использованием RL. В данной работе мы ставим под сомнение это предположение через систематическое изучение обучения RL по слоям. Удивительно, но мы обнаружили, что обучение одного слоя трансформера может воспроизвести большую часть приростов, достигнутых при полном обучении с RL, а в некоторых случаях даже превзойти его. Чтобы количественно оценить это явление, мы вводим величину "вклад слоя", которая измеряет долю полного улучшения RL, достигнутого благодаря обучению слоя в изоляции. В рамках семи моделей, охватывающих две семейства моделей (Qwen3, Qwen2.5), три алгоритма RL (GRPO, GiGPO, Dr. GRPO) и несколько областей задач, включая математическое рассуждение, генерацию кода и агентное принятие решений, мы наблюдаем замечательно стабильный паттерн: приросты RL сосредоточены в небольшом подмножестве, а в большинстве случаев даже в одном слое трансформера. Более того, тот же структурный паттерн последовательно возникает: слои с высоким вкладом сосредоточены в середине стека трансформера, тогда как слои ближе к входу и выходу вносят значительно меньший вклад. Ранжирование слоев при этом остается сильно коррелированным между датасетами, задачами, семействами моделей и алгоритмами RL.

Искусственный интеллект
Искусственный интеллект
100%

Квантовое и кластическое машинное обучение: унифицированное эмпирическое сравнение

Квантовые вычисления стали многообещающей вычислительной парадигмой для машинного обучения (МЛ), с потенциалом предложить вычислительные преимущества по сравнению с классическими подходами. На данный момент доказательства, подтверждающие эффективность и преимущества квантовых моделей машинного обучения (QML) по отношению к классическим моделям, недостаточны. Чтобы заполнить этот пробел, в данной работе представлено эмпирическое исследование производительности моделей QML и их классических аналогов. Мы сравниваем семь пар моделей, охватывающих контролируемое обучение и обучение с подкреплением. Наши результаты показывают, что оцениваемые модели квантового машинного обучения пока не превосходят классические эталоны по общей точности прогнозирования, стабильности политики или времени обучения. Тем не менее, QML остается многообещающим подходом для фильтрации шума и контроля ложноположительных срабатываний. Результаты нашего исследования подводят итоги проблемам, с которыми сталкивается квантовое машинное обучение в различных аппаратных средах, эффективности обучения и стабильности сходимости, создавая основу для исследований по устойчивости и оптимизации параметров QML. Эта работа доступна по адресу https://github.com/Z-537-437/QML.

Искусственный интеллект
Искусственный интеллект
92%

Правильно в правильном направлении: Обучение языковых моделей с проверяемыми наградами и человеческими демонстрациями

Обучение с подкреплением с проверяемыми наградами (RLVR) стало мощной парадигмой для обучения языковых моделей (ЛМ) по задачам с четко определяемыми метриками успеха, такими как генерация кода и математическое рассуждение. Однако текущие методы RLVR оптимизируют лишь то, что можно объективно оценить, часто пренебрегая субъективными, непроверяемыми аспектами человеческих выводов, такими как стиль и структура. Это ограничение приводит к хорошо задокументированным проблемам, таким как потеря разнообразия, неестественно звучащие ответы и манипулирование наградами. Мы предлагаем противоборствующую систему генератора-дискриминатора, которая дополняет проверяемые награды обученным сигналом из человеческих демонстраций. Модель генератора обучается с использованием RL для максимизации как точности выполнения задач, так и противоборствующей награды, полученной от дискриминатора. Дискриминатор, обучаемый вместе с политикой генератора, учится отличать тексты, написанные человеком, от сгенерированных моделью. Дискриминатор служит обученной прокси для распределения человеческих выходов, предоставляя обратную связь по аспектам генерации, которые трудно формализовать в виде скалярных наград. В различных областях, включая исправление ошибок и открытую генерацию, наш подход последовательно улучшает непроверяемые свойства, сохраняя при этом приросты точности RLVR. В исправлении ошибок наш метод демонстрирует решения с значительно меньшим расстоянием правок по сравнению с базовыми методами RLVR, достигая аналогичных результатов. В генерации рассказов наш подход значительно увеличивает вероятность победы, создавая истории, которые являются разнообразными и более приближенными к человеческим. В простом тесте на манипулирование наградами наш метод почти полностью устраняет неправильное поведение модели, сохраняя при этом высокие оценки по стандартам. Вместе эти результаты показывают, что наш подход соединяет RL и SFT, предлагая масштабируемый путь к совместной оптимизации проверяемых и непроверяемых свойств задачи.

Искусственный интеллект
Искусственный интеллект
90%

Интроспективная связь: обучение самояснению приводит к изменениям в поведении, несмотря на фиксированный контроль

Когда обучение языковых моделей (ЯМ) генерировать объяснения своих предсказаний приводит к верной интроспекции, а не к поверхностной имитации? Мы изучаем ЯМ, обученные объяснять, какие характеристики их входных данных повлияли на их поведение, используя контрфактическое поведение моделей на изменённых входных данных в качестве контроля. Удивительно, но мы обнаружили, что ЯМ, обученные на фиксированных контрфактических объяснениях, полученных из предыдущих контрольных точек самих себя или даже из поведенчески схожих моделей из других семейств, часто выдают объяснения, более соответствующие их текущему поведению, нежели целям их обучения. Эта «интроспективная» связь между объяснениями ЯМ и поведением возникает, когда обучение объяснениям остаётся достаточно коррелированным с текущим поведением в течение всего периода обучения, даже при изменении самого поведения. Мы также показываем, что интроспективная связь отслеживает изменения поведения: когда обучение объяснениям предоставляется одновременно с другими задачами после обучения, объяснения отслеживают эти изменения без необходимости в обновлённом контроле. Это явление проявляется в нескольких задачах, включая лестничество и отказ, и устойчива к шуму в метках. В целом, наши результаты показывают, что даже фиксированные наборы данных контрфактических объяснений могут предоставить масштабируемый и универсальный сигнал после обучения для интроспекции.

Искусственный интеллект
Искусственный интеллект
85%

Гипотеза разделения предсказания состояния

Трансформеры используют один и тот же поток вычислений для предсказания следующего токена и хранения полезного состояния для будущих предсказаний токенов. Мы формулируем гипотезу о разделении предсказания состояния: разделение этих двух ролей обеспечивает лучшую производительность языкового моделирования. Мы разрабатываем вариант трансформера, который использует два вычислительных потока для разделения этих функций, и проводим эксперименты по предварительному обучению на данных различного масштаба. Наши эксперименты показывают, что разделение предсказания состояния последовательно предлагает лучшую эффективность данных и вычислений, улучшая показатель валидации и превосходя стандартные трансформеры в среднем на 2-3 процентных пункта по downstream задачам. Мы также проводим обширный эмпирический анализ, который исключает потенциальные конфаундеры и демонстрирует принципиальное различие в градиентах, которое влечет наш дизайн.

Искусственный интеллект
Искусственный интеллект
82%

FurnitureVLA: Обучение долгосрочной бимануальной сборке мебели с помощью модели видение-язык-действие

Текущие исследования в области роботизированной сборки мебели в основном сосредоточены на игрушечных масштабах или манипуляциях с одной рукой. Мы представляем FurnitureVLA, первое систематическое исследование бимануальной сборки мебели в реальном масштабе с использованием моделей видения-языка-действия (VLA). Мы формализуем задачу, разрабатываем масштабируемый симуляционный конвейер для генерации и оценки экспертных данных и создаем систему телеприсутствия в виртуальной реальности для управления бимануально одним оператором с целью сбора качественных демонстраций из реального мира. Чтобы справиться с экстремально долгосрочной сборкой, которая включает до 7 подсостояний и 1550 контрольных шагов, мы предлагаем улучшенную модель VLA, донастроенную на семантически обоснованные подсостояния, которая совместно предсказывает действия и непрерывный сигнал прогресса, позволяя автоматически переходить между подсостояниями и снижая накопление ошибок во время вывода. Мы также исследуем факторы проектирования восприятия и управления, которые критически влияют на точность в сборке в реальном масштабе. FurnitureVLA улучшает средний уровень успеха симуляции с 48% до 80% по сравнению с базовыми показателями для трех типов мебели, с дополнительным приростом в 21% благодаря изучению факторов проектирования. Мы валидируем на реальной платформе Kinova Gen3 с только 16% снижением на наиболее сложной задаче.