Искусственный интеллектarXivScience Morning3 мин чтенияpreprint

Обучение с учетом принятия решений для генеративных моделей на основе выборок

Decision-Aware Training for Sample-Based Generative Models

Рубрика
Искусственный интеллект
Источник
arXiv
Дата
01.07.2026
Автор
Science Morning
Время чтения
3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Искусственный интеллект

Аннотация

Генеративные модели на основе выборок все чаще используются для вероятностного прогнозирования в условиях высоких ставок, однако их цели обучения не обращают внимания на структуру затрат принятием решений. Обычно эти модели обучают с использованием строго корректных оценивательных правил, таких как энергетический рейтинг, которые распределяют сигнал обучения пропорционально плотности данных, не учитывая, где ошибки прогнозов наиболее затратны для последующих решений. Поэтому мы предлагаем обучение с учетом принятия решений для генеративных моделей на основе выборок, дополняя цель энергетического рейтинга дифференцируемой функцией потерь, которая непосредственно штрафует за затраты, понесенные при принятии решения на основе прогноза модели. Эта комбинированная функция потерь имеет теоретическую основу, поскольку функция потерь по решению сама по себе является корректным оценивательным правилом. Мы проверяем наш метод на одной синтетической и двух реальных задачах, демонстрируя целевые улучшения в чувствительных к затратам областях, при этом сохраняя полные вероятностные прогнозы.

Краткое резюме

Исследование предлагает новый подход к обучению генеративных моделей, который учитывает затраты, связанные с ошибками в прогнозах. Этот подход потенциально повышает эффективность использования моделей в ситуациях принятия решений, где последствия ошибок могут быть существенно затратными.

Практический вывод

Предложенный метод обучения позволяет создать более точные прогностические модели в контексте решений с высокими ставками, минимизируя затраты на ошибки при принятии решений.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. Исследование проведено на ограниченном наборе задач и требует дальнейшей валидации на более широком спектре реальных данных и сценариев принятия решений.

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Искусственный интеллект
Искусственный интеллект
100%

Хватает ли одного слоя? Обучение одного слоя трансформера может сопоставиться с полным обучением с подкреплением

Обучение с подкреплением (RL) стало центральным компонентом постобучения крупных языковых моделей (LLMs), однако мало что известно о том, как адаптация RL распределена по слоям трансформера. Существующие подходы обычно обновляют все параметры модели равномерно, подразумевая, что каждый слой вносит схожий вклад в приросты, достигнутые в процессе постобучения с использованием RL. В данной работе мы ставим под сомнение это предположение через систематическое изучение обучения RL по слоям. Удивительно, но мы обнаружили, что обучение одного слоя трансформера может воспроизвести большую часть приростов, достигнутых при полном обучении с RL, а в некоторых случаях даже превзойти его. Чтобы количественно оценить это явление, мы вводим величину "вклад слоя", которая измеряет долю полного улучшения RL, достигнутого благодаря обучению слоя в изоляции. В рамках семи моделей, охватывающих две семейства моделей (Qwen3, Qwen2.5), три алгоритма RL (GRPO, GiGPO, Dr. GRPO) и несколько областей задач, включая математическое рассуждение, генерацию кода и агентное принятие решений, мы наблюдаем замечательно стабильный паттерн: приросты RL сосредоточены в небольшом подмножестве, а в большинстве случаев даже в одном слое трансформера. Более того, тот же структурный паттерн последовательно возникает: слои с высоким вкладом сосредоточены в середине стека трансформера, тогда как слои ближе к входу и выходу вносят значительно меньший вклад. Ранжирование слоев при этом остается сильно коррелированным между датасетами, задачами, семействами моделей и алгоритмами RL.

Искусственный интеллект
Искусственный интеллект
100%

Квантовое и кластическое машинное обучение: унифицированное эмпирическое сравнение

Квантовые вычисления стали многообещающей вычислительной парадигмой для машинного обучения (МЛ), с потенциалом предложить вычислительные преимущества по сравнению с классическими подходами. На данный момент доказательства, подтверждающие эффективность и преимущества квантовых моделей машинного обучения (QML) по отношению к классическим моделям, недостаточны. Чтобы заполнить этот пробел, в данной работе представлено эмпирическое исследование производительности моделей QML и их классических аналогов. Мы сравниваем семь пар моделей, охватывающих контролируемое обучение и обучение с подкреплением. Наши результаты показывают, что оцениваемые модели квантового машинного обучения пока не превосходят классические эталоны по общей точности прогнозирования, стабильности политики или времени обучения. Тем не менее, QML остается многообещающим подходом для фильтрации шума и контроля ложноположительных срабатываний. Результаты нашего исследования подводят итоги проблемам, с которыми сталкивается квантовое машинное обучение в различных аппаратных средах, эффективности обучения и стабильности сходимости, создавая основу для исследований по устойчивости и оптимизации параметров QML. Эта работа доступна по адресу https://github.com/Z-537-437/QML.

Искусственный интеллект
Искусственный интеллект
100%

Использование агентов на базе языковых моделей для генерации квантовых приложений для оптимизации тестирования

Квантовые вычисления все активнее исследуются в области оптимизации программного обеспечения (ПО), однако перевод требований на естественном языке (ЕЯ) на уровне задач в исполняемые квантовые приложения по-прежнему требует значительных знаний в области квантовой механики и программирования. Мы представляем QPipe — архитектуру многоагентной системы на основе большой языковой модели (БЯМ), которая автономно преобразует требования на ЕЯ в отслеживаемые рабочие процессы квантовых приложений с помощью специализированных агентов для разбора требований, их формулировки, генерации кода, рецензирования, выполнения и верификации. Мы оценили QPipe на 20 требованиях на ЕЯ, каждое из которых связано с реальным бенчмарком и задачей оптимизации тестов. QPipe успешно завершил ключевые этапы генерации квантового приложения для всех требований, достигнув средних показателей 100% по компиляции кода и 96,7% по выполнению приложений и комбинированию окончательных результатов, с средними затратами на генерацию 260,1 секунды и 1,89 миллиона токенов на требование. Среди сгенерированных квантовых приложений, которые завершились успешно, полученные решения в большинстве случаев превосходят базовый уровень, заданный оффлайн-генетическим алгоритмом. Результаты абляции показывают, что преимущества QPipe зависят от сохранения навыков генерации кода, знания задач, обратной связи по рецензированию и мультиагентной декомпозиции. Эти результаты подтверждают, что координация агентов может поддерживать генерацию исполняемых квантовых приложений для решения задач оптимизации тестов на основе реальных бенчмарков.

Искусственный интеллект
Искусственный интеллект
100%

Интроспективная связь: обучение самояснению приводит к изменениям в поведении, несмотря на фиксированный контроль

Когда обучение языковых моделей (ЯМ) генерировать объяснения своих предсказаний приводит к верной интроспекции, а не к поверхностной имитации? Мы изучаем ЯМ, обученные объяснять, какие характеристики их входных данных повлияли на их поведение, используя контрфактическое поведение моделей на изменённых входных данных в качестве контроля. Удивительно, но мы обнаружили, что ЯМ, обученные на фиксированных контрфактических объяснениях, полученных из предыдущих контрольных точек самих себя или даже из поведенчески схожих моделей из других семейств, часто выдают объяснения, более соответствующие их текущему поведению, нежели целям их обучения. Эта «интроспективная» связь между объяснениями ЯМ и поведением возникает, когда обучение объяснениям остаётся достаточно коррелированным с текущим поведением в течение всего периода обучения, даже при изменении самого поведения. Мы также показываем, что интроспективная связь отслеживает изменения поведения: когда обучение объяснениям предоставляется одновременно с другими задачами после обучения, объяснения отслеживают эти изменения без необходимости в обновлённом контроле. Это явление проявляется в нескольких задачах, включая лестничество и отказ, и устойчива к шуму в метках. В целом, наши результаты показывают, что даже фиксированные наборы данных контрфактических объяснений могут предоставить масштабируемый и универсальный сигнал после обучения для интроспекции.

Искусственный интеллект
Искусственный интеллект
100%

Обучение с подкреплением с метапознавательной обратной связью вызывает надежное выражение неопределенности в больших языковых моделях

Метапознание является критически важной составляющей интеллекта, описывающей способность контролировать и регулировать собственные когнитивные процессы. Тем не менее, большие языковые модели (LLMs) демонстрируют системные недостатки в ключевых метапознавательных функциях: они создают неправильные (галлюцинирующие) ответы с высокой уверенностью, не осознают границы своих знаний и неправильно представляют свою внутреннюю неопределенность, что подрывает доверие и надежность. Учитывая, что мониторинг производительности задач и адаптация поведения в соответствии с этим являются центральными для метапознания, мы предполагаем, что модели, способные точно оценивать свою собственную производительность, лучше подготовлены для ее улучшения. Мы реализуем эту идею через два новых механизма: обучение с подкреплением с метапознавательной обратной связью (RLMF) – парадигму, позволяющую улучшать ранжирование завершений во время оптимизации предпочтений на основе качества самосуждений модели о производительности, и выбор метапознавательных данных, который использует аналогичные самосуждения для выявления ценных обучающих примеров, превосходя наивное активное обучение. Мы применяем эти инновации к проблеме надежной калибровки (FC), которая сама по себе является принципиально метапознавательной задачей: цель заключается в согласовании выраженной и внутренней неопределенности, что сложно даже для передовых LLM. Мы принимаем декомпозированный подход в два этапа: сначала используем эти методы для калибровки надежности самооценок моделей, а затем отображаем на естественную, адаптируемую по контексту языковую неопределенность через целевое редактирование выходных данных. Обширные эксперименты показывают, что RLMF достигает обобщаемой, современной надежной калибровки на различных задачах при сохранении точности. Более того, RLMF превосходит стандартное обучение с подкреплением на 63%, при этом улучшая способность моделей оценивать и выражать собственные пределы возможностей. Это ставит RLMF в качестве многообещающей парадигмы для повышения метапознавательных способностей LLM с целью улучшения возможностей моделирования и соответствия, а также предполагает, что метапознавательная производительность является эффективным сигналом обучения с подкреплением для преодоления ограничений ранее используемых методов внутренней обратной связи.

Искусственный интеллект
Искусственный интеллект
100%

Переосмысленный самообучение: скрытая хрупкость обучения на основе самосгенерированных QA

Языковые модели все чаще обучаются с использованием синтетической супервизии вопросов и ответов (QA): модель генерирует вопросы о документе, отвечает на них, используя тот же текст, и полученные пары используются для дообучения, дистилляции или сжатия знаний в другую модель. Мы показываем, что этот этап генерации не является нейтральной предобработкой. Это неявная политика, которая как выбирает, какие доказательства становятся обучающим сигналом, так и решает, как это доказательство будет отвечено, и она хрупка на обоих этапах. При выборе, что спросить, генераторы не обходят документ равномерно. Покрытие быстро достигает насыщения и концентрируется на заметных отрезках, разнообразные подсказки сливаются в одни и те же области, а то, что выглядит достойным вопроса, определяется локальным представлением. В результате заметные артефакты, такие как плохо очищенные разметки, могут захватить генерацию вопросов среди семейств и масштабов моделей. При ответах модель, генерирующая супервизию, склонна подчиняться инструкциям, внедренным в текст. Эта приверженность зависит от намерения и поверхностной формы отрывка, а не от его строгости, и ухудшается при конфликте задач, где более крупные модели подчиняются чаще. Эти режимы сбоев возникают из-за выборов, сделанных во время генерации QA, поэтому их можно сократить, не меняя цикл обучения. Привязка каждого вопроса к фиксированной цели уменьшает предвзятую селекцию, а фильтрация отрывков, похожих на инструкции, перед ответом снижает среднюю степень соблюдения инъекций с $88\%$ до $13\%$ в нашей оценке, сохраняя при этом почти весь чистый текст.