Искусственный интеллектarXivScience Morning3 мин чтенияpreprint

TRIAGE: Наращивание кредита с учетом роли для агентного обучения с подкреплением

TRIAGE: Role-Typed Credit Assignment for Agentic Reinforcement Learning

Рубрика
Искусственный интеллект
Источник
arXiv
Дата
30.06.2026
Автор
Science Morning
Время чтения
3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Искусственный интеллект

Аннотация

Агентное обучение с подкреплением требует назначения кредита действиям, направленным на взаимодействие с окружением, таким как поиски, клики, редактирования, команды навигации и взаимодействия с объектами. Стандартный GRPO использует итоговый результат проверки как единый сигнал преимущества для всех токенов действий. Этот сигнал результата полезен, но структурно неполон: он наказывает полезные исследования в неудачных имитациях и усиливает избыточные или регрессивные действия в успешных результатах. Мы предлагаем TRIAGE, структуру назначения кредита с учетом роли, которая добавляет семантическую ось роли к кредиту результата. Структурированный судья классифицирует каждый сегмент как решающий прогресс, полезное исследование, инфраструктуру без прогресса или регрессию, а фиксированное правило, зависящее от роли, отображает эти метки на ограниченные вознаграждения процесса на уровне сегмента. Это сохраняет результаты проверки как источник направления оптимизации, при этом correcting два основных слепых пятна кредита, основанного только на результате. Мы также показываем, что кредит, зависящий от роли, является оптимальной коррекцией на уровне сегмента, которую можно выразить исключительно из меток ролей — проекцией остатка преимущества на сегмент на переменную роли, — таким образом фиксированные роли снижают ошибку оценки преимущества, когда судья надежен, и мы связываем это со снижением дисперсии градиентов политики. В ALFWorld, Search-QA и WebShop TRIAGE повышает показатели успеха по сравнению с GRPO для двух моделей политики и превышает как процессные вознаграждения, извлеченные из судьи, так и базу значений, контролируемую результатом. Аблации показывают, что прирост происходит благодаря типизации ролей, а не просто добавлению плотных вознаграждений: надежное обнаружение регрессии внутри успешных траекторий является доминирующим элементом, в то время как кредит на исследование предоставляет устойчивый вторичный прирост; на завершенных результатах ALFWorld и WebShop TRIAGE также снижает количество ходов, направленных на окружение, на дополнительные 10.4% и 14.8% соответственно по сравнению с GRPO.

Краткое резюме

Статья предлагает новую структуру TRIAGE для назначения кредита в обучении с подкреплением, которая учитывает семантические роли действий агентов, что позволяет улучшить эффективность обучения и снизить ошибки в оценке действий.

Практический вывод

Использование модели TRIAGE значительно повышает показатели успеха в агентном обучении, улучшая качество исследования и обнаружения регрессии в действиях.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. Ограничения исследования включают зависимость от надежности судьи и возможность снижения эффекта в случаях неудачного определения ролей в действиях.

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Искусственный интеллект
Искусственный интеллект
100%

Имитационное обучение с критикой языка на основе субоптимальных демонстраций

Предыдущие работы по имитационному обучению на основе субоптимальных демонстраций обычно полагаются на сжатые сигналы супервизии, такие как оценки уверенности, баллы дискриминатора или веса важности. Эти скалярные сигналы имеют свои ограничения, так как не могут явно выразить промежуточные размышления о ходе выполнения задачи, режимах неудачи или корректирующих действиях. Мы предлагаем рамки имитационного обучения с критическим анализом языка, которое вместо этого использует естественный язык в качестве структурированного сигнала супервизии, избегая сворачивания выразительной обратной связи в скаляры. Наш метод сначала создает языковые метки на основе демонстраций, которые явно описывают текущий прогресс, идентифицируют субоптимальное поведение и предоставляют детализированные корректирующие рекомендации. Затем мы вводим функцию потерь критики языка, которая непосредственно обучает политики, используя эти структурированные сигналы, не сводя их к скалярам, и инстанцируем ее для как имитационного клонирования поведения, так и диффузионных политик, получая LC-BC и LC-DP. Мы также предоставляем теоретический результат, показывающий, что предложенная цель обеспечивает верхнюю границу разрыва производительности эксперта при стандартных предположениях. Эмпирически мы проводим оценку на различных задачах непрерывного управления, охватывающих навигацию, манипуляцию и игровую деятельность, где наши методы последовательно превосходят сильные базы имитационного обучения и оффлайн обучения с подкреплением. Эти результаты демонстрируют, что язык может служить мощной и структурированной формой супервизии для обучения устойчивым политикам на основе субоптимальных данных.

Искусственный интеллект
Искусственный интеллект
100%

Обучение предпочтениям в произвольной форме для робототехнической манипуляции

Дизайн вознаграждений остается центральным узким местом для улучшения политики автономных роботов, особенно в задачах манипуляции с длительным горизонтом, где разрозненные метки успеха предоставляют слишком слабый сигнал, а бинарные предпочтения сводят множество конкурирующих представлений о качестве в один неоднозначный сигнал. Мы представляем Метод Обучения Предпочтениям в Произвольной Форме (FPL), который позволяет обучать роботам на основе произвольных человеческих предпочтений. Вместо того чтобы спрашивать аннотаторов, какая из двух траекторий лучше в целом, FPL позволяет им определять оси предпочтений на естественном языке, такие как скорость, безопасность, качество размещения или аккуратность, и предоставлять парные предпочтения вдоль каждой оси. Эти аннотации используются для обучения модели вознаграждения, обусловленной языком, которая преобразует траекторию и метку предпочтения в вознаграждение, специфичное для оси. Мы используем эту модель для обучения политики, обусловленной вознаграждением, которая оптимизирует по нескольким заданным человеком измерениям. В четырех реальных задачах манипуляции и двух смоделированных задачах с длительным горизонтом FPL превосходит методы с разрозненным вознаграждением и бинарными предпочтениями на 38 процентных пунктов. Помимо улучшенной производительности, FPL обучает плотные сигналы прогресса без явной сегментации подтасков, демонстрирует композиционность поведения, отсутствующую в данных, и позволяет пользователям направлять политику к различным видам поведения на этапе тестирования без повторного обучения. Запись в блоге с видео доступна по адресу https://freeform-pl.github.io/fpl.website/

Искусственный интеллект
Искусственный интеллект
100%

Переосмысленный самообучение: скрытая хрупкость обучения на основе самосгенерированных QA

Языковые модели все чаще обучаются с использованием синтетической супервизии вопросов и ответов (QA): модель генерирует вопросы о документе, отвечает на них, используя тот же текст, и полученные пары используются для дообучения, дистилляции или сжатия знаний в другую модель. Мы показываем, что этот этап генерации не является нейтральной предобработкой. Это неявная политика, которая как выбирает, какие доказательства становятся обучающим сигналом, так и решает, как это доказательство будет отвечено, и она хрупка на обоих этапах. При выборе, что спросить, генераторы не обходят документ равномерно. Покрытие быстро достигает насыщения и концентрируется на заметных отрезках, разнообразные подсказки сливаются в одни и те же области, а то, что выглядит достойным вопроса, определяется локальным представлением. В результате заметные артефакты, такие как плохо очищенные разметки, могут захватить генерацию вопросов среди семейств и масштабов моделей. При ответах модель, генерирующая супервизию, склонна подчиняться инструкциям, внедренным в текст. Эта приверженность зависит от намерения и поверхностной формы отрывка, а не от его строгости, и ухудшается при конфликте задач, где более крупные модели подчиняются чаще. Эти режимы сбоев возникают из-за выборов, сделанных во время генерации QA, поэтому их можно сократить, не меняя цикл обучения. Привязка каждого вопроса к фиксированной цели уменьшает предвзятую селекцию, а фильтрация отрывков, похожих на инструкции, перед ответом снижает среднюю степень соблюдения инъекций с $88\%$ до $13\%$ в нашей оценке, сохраняя при этом почти весь чистый текст.

Искусственный интеллект
Искусственный интеллект
95%

Алгоритмы машинного обучения для определения пола по измерениям черепа и таза, полученным с помощью 3D-компьютерной томографии.

Определение пола по останкам скелета является ключевым элементом судебной антропологии, при этом череп и таз являются наиболее различимыми по полу элементами с точки зрения морфологии. Традиционные морфометрические подходы, такие как дискриминантный анализ и логистическая регрессия, достигли высокой точности в оценке пола среди различных популяций, включая южноафриканцев. Однако использование машинного обучения (МЛ) для определения пола на основе измерений черепа и таза еще не было исследовано ни в одной южноафриканской популяции. Это исследование оценивало потенциал алгоритмов МЛ для определения пола по черепным и тазовым измерениям, полученным с помощью компьютерной томографии (КТ) современных чернокожих южноафриканцев. В выборку вошли 680 элементов скелета (400 черепов и 280 тазовых костей) с равным распределением мужчин и женщин. КТ-сканы, архивируемые в Отделе радиологии Академической больницы Шарлотты Макеке в Йоханнесбурге, были реконструированы в 3D-модели с помощью программного обеспечения Xiris и IntelliSpace, откуда были собраны восемь черепных и одиннадцать тазовых измерений. Применялись семь классических алгоритмов МЛ, и использовались методы ранжирования признаков для определения наиболее информативных переменных для оценки пола. Затем была разработана модель стекового обучения МЛ, в которую были включены три лучших классификатора в качестве базовых моделей. Их выводы были объединены и переданы различным алгоритмам МЛ, которые выступали в роли мета-обучающих для финальной классификации. Результаты подтвердили сильный половой диморфизм в черепных и тазовых костях, а стековые модели достигли высокой точности (череп: 80,3-94,3%; таз: 86,1-96,1%) по сравнению с традиционными многовариантными методами, демонстрируя потенциал МЛ в судебном определении пола.

Искусственный интеллект
Искусственный интеллект
92%

Квантовое и кластическое машинное обучение: унифицированное эмпирическое сравнение

Квантовые вычисления стали многообещающей вычислительной парадигмой для машинного обучения (МЛ), с потенциалом предложить вычислительные преимущества по сравнению с классическими подходами. На данный момент доказательства, подтверждающие эффективность и преимущества квантовых моделей машинного обучения (QML) по отношению к классическим моделям, недостаточны. Чтобы заполнить этот пробел, в данной работе представлено эмпирическое исследование производительности моделей QML и их классических аналогов. Мы сравниваем семь пар моделей, охватывающих контролируемое обучение и обучение с подкреплением. Наши результаты показывают, что оцениваемые модели квантового машинного обучения пока не превосходят классические эталоны по общей точности прогнозирования, стабильности политики или времени обучения. Тем не менее, QML остается многообещающим подходом для фильтрации шума и контроля ложноположительных срабатываний. Результаты нашего исследования подводят итоги проблемам, с которыми сталкивается квантовое машинное обучение в различных аппаратных средах, эффективности обучения и стабильности сходимости, создавая основу для исследований по устойчивости и оптимизации параметров QML. Эта работа доступна по адресу https://github.com/Z-537-437/QML.

Искусственный интеллект
Искусственный интеллект
92%

Обучение с подкреплением с метапознавательной обратной связью вызывает надежное выражение неопределенности в больших языковых моделях

Метапознание является критически важной составляющей интеллекта, описывающей способность контролировать и регулировать собственные когнитивные процессы. Тем не менее, большие языковые модели (LLMs) демонстрируют системные недостатки в ключевых метапознавательных функциях: они создают неправильные (галлюцинирующие) ответы с высокой уверенностью, не осознают границы своих знаний и неправильно представляют свою внутреннюю неопределенность, что подрывает доверие и надежность. Учитывая, что мониторинг производительности задач и адаптация поведения в соответствии с этим являются центральными для метапознания, мы предполагаем, что модели, способные точно оценивать свою собственную производительность, лучше подготовлены для ее улучшения. Мы реализуем эту идею через два новых механизма: обучение с подкреплением с метапознавательной обратной связью (RLMF) – парадигму, позволяющую улучшать ранжирование завершений во время оптимизации предпочтений на основе качества самосуждений модели о производительности, и выбор метапознавательных данных, который использует аналогичные самосуждения для выявления ценных обучающих примеров, превосходя наивное активное обучение. Мы применяем эти инновации к проблеме надежной калибровки (FC), которая сама по себе является принципиально метапознавательной задачей: цель заключается в согласовании выраженной и внутренней неопределенности, что сложно даже для передовых LLM. Мы принимаем декомпозированный подход в два этапа: сначала используем эти методы для калибровки надежности самооценок моделей, а затем отображаем на естественную, адаптируемую по контексту языковую неопределенность через целевое редактирование выходных данных. Обширные эксперименты показывают, что RLMF достигает обобщаемой, современной надежной калибровки на различных задачах при сохранении точности. Более того, RLMF превосходит стандартное обучение с подкреплением на 63%, при этом улучшая способность моделей оценивать и выражать собственные пределы возможностей. Это ставит RLMF в качестве многообещающей парадигмы для повышения метапознавательных способностей LLM с целью улучшения возможностей моделирования и соответствия, а также предполагает, что метапознавательная производительность является эффективным сигналом обучения с подкреплением для преодоления ограничений ранее используемых методов внутренней обратной связи.