Искусственный интеллектarXivScience Morning3 мин чтенияpreprint
Обучение с подкреплением с метапознавательной обратной связью вызывает надежное выражение неопределенности в больших языковых моделях
Reinforcement Learning with Metacognitive Feedback Elicits Faithful Uncertainty Expression in LLMs
Карточка статьи
Рубрика
Искусственный интеллект
Источник
arXiv
Дата
30.06.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Аннотация
Метапознание является критически важной составляющей интеллекта, описывающей способность контролировать и регулировать собственные когнитивные процессы. Тем не менее, большие языковые модели (LLMs) демонстрируют системные недостатки в ключевых метапознавательных функциях: они создают неправильные (галлюцинирующие) ответы с высокой уверенностью, не осознают границы своих знаний и неправильно представляют свою внутреннюю неопределенность, что подрывает доверие и надежность. Учитывая, что мониторинг производительности задач и адаптация поведения в соответствии с этим являются центральными для метапознания, мы предполагаем, что модели, способные точно оценивать свою собственную производительность, лучше подготовлены для ее улучшения. Мы реализуем эту идею через два новых механизма: обучение с подкреплением с метапознавательной обратной связью (RLMF) – парадигму, позволяющую улучшать ранжирование завершений во время оптимизации предпочтений на основе качества самосуждений модели о производительности, и выбор метапознавательных данных, который использует аналогичные самосуждения для выявления ценных обучающих примеров, превосходя наивное активное обучение. Мы применяем эти инновации к проблеме надежной калибровки (FC), которая сама по себе является принципиально метапознавательной задачей: цель заключается в согласовании выраженной и внутренней неопределенности, что сложно даже для передовых LLM. Мы принимаем декомпозированный подход в два этапа: сначала используем эти методы для калибровки надежности самооценок моделей, а затем отображаем на естественную, адаптируемую по контексту языковую неопределенность через целевое редактирование выходных данных. Обширные эксперименты показывают, что RLMF достигает обобщаемой, современной надежной калибровки на различных задачах при сохранении точности. Более того, RLMF превосходит стандартное обучение с подкреплением на 63%, при этом улучшая способность моделей оценивать и выражать собственные пределы возможностей. Это ставит RLMF в качестве многообещающей парадигмы для повышения метапознавательных способностей LLM с целью улучшения возможностей моделирования и соответствия, а также предполагает, что метапознавательная производительность является эффективным сигналом обучения с подкреплением для преодоления ограничений ранее используемых методов внутренней обратной связи.
Краткое резюме
В статье обсуждается введение нового подхода к обучению больших языковых моделей, основанного на метапознании. Авторы предлагают механизмы, которые позволяют моделям самостоятельно оценивать свои способности и результаты, что помогает улучшить их надежность и аккурнсть. Внедрение обучения с подкреплением с метапознавательной обратной связью (RLMF) и метапознавательного выбора данных значительно повышает качество модели и ее способность к саморегуляции.
Практический вывод
Предложенные методы RLMF могут быть эффективно применены для повышения надежности больших языковых моделей в различных задачах, что открывает новые возможности для их улучшения и адаптации.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Исследование ограничено использованием специфических типов задач и моделей, что может повлиять на универсальность предложенных подходов. Также необходимо дальнейшее исследование для проверки устойчивости результатов в различных контекстах и условиях.
Обучение с подкреплением (RL) стало центральным компонентом постобучения крупных языковых моделей (LLMs), однако мало что известно о том, как адаптация RL распределена по слоям трансформера. Существующие подходы обычно обновляют все параметры модели равномерно, подразумевая, что каждый слой вносит схожий вклад в приросты, достигнутые в процессе постобучения с использованием RL. В данной работе мы ставим под сомнение это предположение через систематическое изучение обучения RL по слоям. Удивительно, но мы обнаружили, что обучение одного слоя трансформера может воспроизвести большую часть приростов, достигнутых при полном обучении с RL, а в некоторых случаях даже превзойти его. Чтобы количественно оценить это явление, мы вводим величину "вклад слоя", которая измеряет долю полного улучшения RL, достигнутого благодаря обучению слоя в изоляции. В рамках семи моделей, охватывающих две семейства моделей (Qwen3, Qwen2.5), три алгоритма RL (GRPO, GiGPO, Dr. GRPO) и несколько областей задач, включая математическое рассуждение, генерацию кода и агентное принятие решений, мы наблюдаем замечательно стабильный паттерн: приросты RL сосредоточены в небольшом подмножестве, а в большинстве случаев даже в одном слое трансформера. Более того, тот же структурный паттерн последовательно возникает: слои с высоким вкладом сосредоточены в середине стека трансформера, тогда как слои ближе к входу и выходу вносят значительно меньший вклад. Ранжирование слоев при этом остается сильно коррелированным между датасетами, задачами, семействами моделей и алгоритмами RL.
Квантовые вычисления стали многообещающей вычислительной парадигмой для машинного обучения (МЛ), с потенциалом предложить вычислительные преимущества по сравнению с классическими подходами. На данный момент доказательства, подтверждающие эффективность и преимущества квантовых моделей машинного обучения (QML) по отношению к классическим моделям, недостаточны. Чтобы заполнить этот пробел, в данной работе представлено эмпирическое исследование производительности моделей QML и их классических аналогов. Мы сравниваем семь пар моделей, охватывающих контролируемое обучение и обучение с подкреплением. Наши результаты показывают, что оцениваемые модели квантового машинного обучения пока не превосходят классические эталоны по общей точности прогнозирования, стабильности политики или времени обучения. Тем не менее, QML остается многообещающим подходом для фильтрации шума и контроля ложноположительных срабатываний. Результаты нашего исследования подводят итоги проблемам, с которыми сталкивается квантовое машинное обучение в различных аппаратных средах, эффективности обучения и стабильности сходимости, создавая основу для исследований по устойчивости и оптимизации параметров QML. Эта работа доступна по адресу https://github.com/Z-537-437/QML.
Обучение с подкреплением с проверяемыми наградами (RLVR) стало мощной парадигмой для обучения языковых моделей (ЛМ) по задачам с четко определяемыми метриками успеха, такими как генерация кода и математическое рассуждение. Однако текущие методы RLVR оптимизируют лишь то, что можно объективно оценить, часто пренебрегая субъективными, непроверяемыми аспектами человеческих выводов, такими как стиль и структура. Это ограничение приводит к хорошо задокументированным проблемам, таким как потеря разнообразия, неестественно звучащие ответы и манипулирование наградами. Мы предлагаем противоборствующую систему генератора-дискриминатора, которая дополняет проверяемые награды обученным сигналом из человеческих демонстраций. Модель генератора обучается с использованием RL для максимизации как точности выполнения задач, так и противоборствующей награды, полученной от дискриминатора. Дискриминатор, обучаемый вместе с политикой генератора, учится отличать тексты, написанные человеком, от сгенерированных моделью. Дискриминатор служит обученной прокси для распределения человеческих выходов, предоставляя обратную связь по аспектам генерации, которые трудно формализовать в виде скалярных наград. В различных областях, включая исправление ошибок и открытую генерацию, наш подход последовательно улучшает непроверяемые свойства, сохраняя при этом приросты точности RLVR. В исправлении ошибок наш метод демонстрирует решения с значительно меньшим расстоянием правок по сравнению с базовыми методами RLVR, достигая аналогичных результатов. В генерации рассказов наш подход значительно увеличивает вероятность победы, создавая истории, которые являются разнообразными и более приближенными к человеческим. В простом тесте на манипулирование наградами наш метод почти полностью устраняет неправильное поведение модели, сохраняя при этом высокие оценки по стандартам. Вместе эти результаты показывают, что наш подход соединяет RL и SFT, предлагая масштабируемый путь к совместной оптимизации проверяемых и непроверяемых свойств задачи.
Агентное обучение с подкреплением требует назначения кредита действиям, направленным на взаимодействие с окружением, таким как поиски, клики, редактирования, команды навигации и взаимодействия с объектами. Стандартный GRPO использует итоговый результат проверки как единый сигнал преимущества для всех токенов действий. Этот сигнал результата полезен, но структурно неполон: он наказывает полезные исследования в неудачных имитациях и усиливает избыточные или регрессивные действия в успешных результатах. Мы предлагаем TRIAGE, структуру назначения кредита с учетом роли, которая добавляет семантическую ось роли к кредиту результата. Структурированный судья классифицирует каждый сегмент как решающий прогресс, полезное исследование, инфраструктуру без прогресса или регрессию, а фиксированное правило, зависящее от роли, отображает эти метки на ограниченные вознаграждения процесса на уровне сегмента. Это сохраняет результаты проверки как источник направления оптимизации, при этом correcting два основных слепых пятна кредита, основанного только на результате. Мы также показываем, что кредит, зависящий от роли, является оптимальной коррекцией на уровне сегмента, которую можно выразить исключительно из меток ролей — проекцией остатка преимущества на сегмент на переменную роли, — таким образом фиксированные роли снижают ошибку оценки преимущества, когда судья надежен, и мы связываем это со снижением дисперсии градиентов политики. В ALFWorld, Search-QA и WebShop TRIAGE повышает показатели успеха по сравнению с GRPO для двух моделей политики и превышает как процессные вознаграждения, извлеченные из судьи, так и базу значений, контролируемую результатом. Аблации показывают, что прирост происходит благодаря типизации ролей, а не просто добавлению плотных вознаграждений: надежное обнаружение регрессии внутри успешных траекторий является доминирующим элементом, в то время как кредит на исследование предоставляет устойчивый вторичный прирост; на завершенных результатах ALFWorld и WebShop TRIAGE также снижает количество ходов, направленных на окружение, на дополнительные 10.4% и 14.8% соответственно по сравнению с GRPO.
Предыдущие работы по имитационному обучению на основе субоптимальных демонстраций обычно полагаются на сжатые сигналы супервизии, такие как оценки уверенности, баллы дискриминатора или веса важности. Эти скалярные сигналы имеют свои ограничения, так как не могут явно выразить промежуточные размышления о ходе выполнения задачи, режимах неудачи или корректирующих действиях. Мы предлагаем рамки имитационного обучения с критическим анализом языка, которое вместо этого использует естественный язык в качестве структурированного сигнала супервизии, избегая сворачивания выразительной обратной связи в скаляры. Наш метод сначала создает языковые метки на основе демонстраций, которые явно описывают текущий прогресс, идентифицируют субоптимальное поведение и предоставляют детализированные корректирующие рекомендации. Затем мы вводим функцию потерь критики языка, которая непосредственно обучает политики, используя эти структурированные сигналы, не сводя их к скалярам, и инстанцируем ее для как имитационного клонирования поведения, так и диффузионных политик, получая LC-BC и LC-DP. Мы также предоставляем теоретический результат, показывающий, что предложенная цель обеспечивает верхнюю границу разрыва производительности эксперта при стандартных предположениях. Эмпирически мы проводим оценку на различных задачах непрерывного управления, охватывающих навигацию, манипуляцию и игровую деятельность, где наши методы последовательно превосходят сильные базы имитационного обучения и оффлайн обучения с подкреплением. Эти результаты демонстрируют, что язык может служить мощной и структурированной формой супервизии для обучения устойчивым политикам на основе субоптимальных данных.
Когда обучение языковых моделей (ЯМ) генерировать объяснения своих предсказаний приводит к верной интроспекции, а не к поверхностной имитации? Мы изучаем ЯМ, обученные объяснять, какие характеристики их входных данных повлияли на их поведение, используя контрфактическое поведение моделей на изменённых входных данных в качестве контроля. Удивительно, но мы обнаружили, что ЯМ, обученные на фиксированных контрфактических объяснениях, полученных из предыдущих контрольных точек самих себя или даже из поведенчески схожих моделей из других семейств, часто выдают объяснения, более соответствующие их текущему поведению, нежели целям их обучения. Эта «интроспективная» связь между объяснениями ЯМ и поведением возникает, когда обучение объяснениям остаётся достаточно коррелированным с текущим поведением в течение всего периода обучения, даже при изменении самого поведения. Мы также показываем, что интроспективная связь отслеживает изменения поведения: когда обучение объяснениям предоставляется одновременно с другими задачами после обучения, объяснения отслеживают эти изменения без необходимости в обновлённом контроле. Это явление проявляется в нескольких задачах, включая лестничество и отказ, и устойчива к шуму в метках. В целом, наши результаты показывают, что даже фиксированные наборы данных контрфактических объяснений могут предоставить масштабируемый и универсальный сигнал после обучения для интроспекции.