Искусственный интеллектarXivScience Morning3 мин чтенияpreprint

QVal: Экономичная оценка сигналов плотного контроля для агентов LLM на длинных горизонтах

QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents

Рубрика
Искусственный интеллект
Источник
arXiv
Дата
30.06.2026
Автор
Science Morning
Время чтения
3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Искусственный интеллект

Аннотация

Агенты LLM все чаще действуют на длинных горизонтах, где одна траектория может содержать сотни или тысячи действий. В таких случаях награды, основанные только на результатах, предоставляют слишком скудные сигналы, не информируя модель о качестве промежуточных действий. Методы плотного контроля旨енты к решению этой проблемы путем оценки промежуточных шагов, начиная от внутренней уверенности и заканчивая самодистилляцией и сходством вложений. Однако обычно эти методы оцениваются путем измерения последующей производительности тренировочного процесса, который интегрирует их. Это дорого, смешивает качество контроля с инженерными факторами обучения и делает различные методологические группы несравнимыми из-за необходимости различных настроек обучения. В результате методы плотного контроля редко проверяются на общем основании. Мы представляем QVal, тестовую платформу без необходимости в обучении для прямой оценки сигналов плотного контроля. Учитывая пару состояние-действие, QVal измеряет, насколько хорошо оценка метода соответствует Q: упорядочивает ли она действия согласно Q-значениям сильной эталонной политики. Это позволяет нам сравнивать сигналы еще до любого запуска обучения и отделять качество сигнала от других инженерных решений. Мы внедрили QVal в виде QVal-v1.0, оценив 21 метод плотного контроля в четырех различных средах и семи методологических группах, проведя более 1,2 тысячи экспериментов по оценке на шести основных моделях с открытыми весами. Мы обнаружили, что простые базовые подходы к подсказкам постоянно превосходят современные методы плотного контроля из литературы, и что производительность сильно кластеризуется по семействам. Эти результаты подтверждаются на различных размерах моделей, средах и модальностях наблюдения. QVal разработан с учетом простоты расширения для новых сред и методов, что позволяет исследователям дорабатывать методы плотного контроля до любого запуска обучения.

Краткое резюме

Исследование вводит новый инструмент под названием QVal, который предназначен для оценки методов плотного контроля в системах LLM. QVal позволяет сравнивать качество сигналов контроля без необходимости в обучении, что упрощает оценку различных методик. Открытые результаты показывают, что простые методы лучше работают по сравнению с последними разработками. Это может изменить подход к тестированию и внедрению методов плотного контроля в обучение агентов.

Практический вывод

QVal предоставляет исследователям простой и эффективный способ оценки методов плотного контроля, позволяя им проводить сравнительный анализ без необходимости в дорогостоящем обучении.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. Ограничением данного исследования является то, что QVal не заменяет полную оценку в контексте образовательного процесса, а служит лишь инструментом для предварительной оценки качества сигналов. Результаты также могут варьироваться в зависимости от специфики сред и используемых методов.

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Искусственный интеллект
Искусственный интеллект
95%

WUSTCA: улучшенная классификация радиочастотных сигналов БПЛА с использованием вейвлет-преобразования и механизмов внимания STCA.

Беспилотные летательные аппараты (БПЛА) играют важную роль в различных гражданских и коммерческих приложениях, что требует точной классификации их радиочастотных (РЧ) сигналов. Современные подходы на основе глубокого обучения сталкиваются с высокой вычислительной сложностью, чувствительностью к шуму и ограниченной точностью. В данной статье предлагается новая структура классификации сигналов БПЛА, которая сочетает в себе вейвлетное извлечение признаков с иерархической архитектурой U-Net, дополненной механизмами внимания с раздельным временем (STCA) и остаточной связанностью. Модель WUSTCA эффективно классифицирует сигналы БПЛА и их контроллеров, достигая средней точности классификации 96,6% для БПЛА и 95,83% для контроллеров БПЛА на наборе данных CardRF. Решая такие проблемы, как помехи шума и разнообразие сигналов, данная работа предоставляет надежное и эффективное решение для классификации сигналов БПЛА, открывая путь для приложений в реальном времени в сложных условиях.

Искусственный интеллект
Искусственный интеллект
87%

Infoxmed2.0-27B: Тюнинг инструкций, согласование предпочтений и обучение модели награды на основе GRPO для медицинских LLM

Абстракт. Большие языковые модели (LLMs) продемонстрировали выдающиеся возможности в общих областях, однако их применение в специализированных медицинских контекстах требует строгой адаптации к предметной области. Мы представляем Infoxmed2.0-27B, медицинскую фундаментальную модель, построенную на основе Qwen3.5-27B через комплексный многоступенчатый постобучающий процесс: (1) синтез проприетарных медицинских данных из базы данных MySQL с организацией MedicalCategoryTree, валидация командой врачей с докторскими степенями, семантическая дедупликация на основе китайского RoBERTa и языковая доработка с помощью API; (2) супервайзинг — тонкая настройка Qwen3.5-27B с помощью LoRA (r = 8, = 32) с использованием MS-Swift, что приводит к итерациям Infoxmed2.0.0[->]2.0.2[->]2.0.4; (3) оптимизация прямых предпочтений (DPO) на 6,283 отобранных парах медицинских предпочтений с использованием потерь DPO-RPO ({beta} = 0.3, RPO = 0.1) через восемь прогрессивных итераций обучения (v0-v7); и (4) параллельное обучение модели вознаграждений, основанное на методах групповой относительной политики (GRPO), с внутренними правилами вознаграждений и внешними сигналами DeepSeek. Комплексные оценки в рамках единой структуры LLM-as-Judge с GPT-5.4 демонстрируют 77.0% точности (средний балл качества +7.18) на MedMCQA и +2.59 на HLE, при этом прогресс по этапам составляет +6.69 (базовый) до +7.06 (SFT) до +7.18 (финальный).

Искусственный интеллект
Искусственный интеллект
82%

FurnitureVLA: Обучение долгосрочной бимануальной сборке мебели с помощью модели видение-язык-действие

Текущие исследования в области роботизированной сборки мебели в основном сосредоточены на игрушечных масштабах или манипуляциях с одной рукой. Мы представляем FurnitureVLA, первое систематическое исследование бимануальной сборки мебели в реальном масштабе с использованием моделей видения-языка-действия (VLA). Мы формализуем задачу, разрабатываем масштабируемый симуляционный конвейер для генерации и оценки экспертных данных и создаем систему телеприсутствия в виртуальной реальности для управления бимануально одним оператором с целью сбора качественных демонстраций из реального мира. Чтобы справиться с экстремально долгосрочной сборкой, которая включает до 7 подсостояний и 1550 контрольных шагов, мы предлагаем улучшенную модель VLA, донастроенную на семантически обоснованные подсостояния, которая совместно предсказывает действия и непрерывный сигнал прогресса, позволяя автоматически переходить между подсостояниями и снижая накопление ошибок во время вывода. Мы также исследуем факторы проектирования восприятия и управления, которые критически влияют на точность в сборке в реальном масштабе. FurnitureVLA улучшает средний уровень успеха симуляции с 48% до 80% по сравнению с базовыми показателями для трех типов мебели, с дополнительным приростом в 21% благодаря изучению факторов проектирования. Мы валидируем на реальной платформе Kinova Gen3 с только 16% снижением на наиболее сложной задаче.

Искусственный интеллект
Искусственный интеллект
82%

Обучение с подкреплением с метапознавательной обратной связью вызывает надежное выражение неопределенности в больших языковых моделях

Метапознание является критически важной составляющей интеллекта, описывающей способность контролировать и регулировать собственные когнитивные процессы. Тем не менее, большие языковые модели (LLMs) демонстрируют системные недостатки в ключевых метапознавательных функциях: они создают неправильные (галлюцинирующие) ответы с высокой уверенностью, не осознают границы своих знаний и неправильно представляют свою внутреннюю неопределенность, что подрывает доверие и надежность. Учитывая, что мониторинг производительности задач и адаптация поведения в соответствии с этим являются центральными для метапознания, мы предполагаем, что модели, способные точно оценивать свою собственную производительность, лучше подготовлены для ее улучшения. Мы реализуем эту идею через два новых механизма: обучение с подкреплением с метапознавательной обратной связью (RLMF) – парадигму, позволяющую улучшать ранжирование завершений во время оптимизации предпочтений на основе качества самосуждений модели о производительности, и выбор метапознавательных данных, который использует аналогичные самосуждения для выявления ценных обучающих примеров, превосходя наивное активное обучение. Мы применяем эти инновации к проблеме надежной калибровки (FC), которая сама по себе является принципиально метапознавательной задачей: цель заключается в согласовании выраженной и внутренней неопределенности, что сложно даже для передовых LLM. Мы принимаем декомпозированный подход в два этапа: сначала используем эти методы для калибровки надежности самооценок моделей, а затем отображаем на естественную, адаптируемую по контексту языковую неопределенность через целевое редактирование выходных данных. Обширные эксперименты показывают, что RLMF достигает обобщаемой, современной надежной калибровки на различных задачах при сохранении точности. Более того, RLMF превосходит стандартное обучение с подкреплением на 63%, при этом улучшая способность моделей оценивать и выражать собственные пределы возможностей. Это ставит RLMF в качестве многообещающей парадигмы для повышения метапознавательных способностей LLM с целью улучшения возможностей моделирования и соответствия, а также предполагает, что метапознавательная производительность является эффективным сигналом обучения с подкреплением для преодоления ограничений ранее используемых методов внутренней обратной связи.

Искусственный интеллект
Искусственный интеллект
77%

Динамическое представление графов для обучения на основе данных в стадировании болезни Хантингтона: оценка по сравнению с существующими методами эмбеддинга и моделями пространственного состояния

Болезнь Хантингтона (БХ) имеет гетерогенное нейродегенеративное течение, при котором моторные, когнитивные и функциональные симптомы развиваются по-разному у различных людей. Такое нетипичное течение осложняет определение дискретных стадий болезни, что затрудняет понимание траекторий заболевания, timely pa- tient care и разработку терапии. В результате существующие клинические системы стадирования в значительной степени полагаются на критерии, определяемые клиницистами, специфичные для области, и фиксированные границы клинического измерения для назначения стадии, что снижает объективность и часто приводит к перекрытию клинических измерений между стадиями. Хотя методы машинного обучения могут помочь, существующие подходы не могут полностью уловить сложные временные зависимости внутри и между пациентами. Мы предлагаем URL-STFN, модель динамического представления графов, которая кодирует как меж-, так и внутри-пациентные временные паттерны на основе долгосрочных клинических измерений. Затем мы оцениваем стадии заболевания, образованные через кластеризацию и анализ стабильности латентных представлений URL-STFN, и сравниваем их с представлениями, полученными с помощью традиционных методов эмбеддинга. Мы также проводим бенчмаркинг этих стадий, основанных на кластеризации, по сравнению с состояниями, полученными из традиционных временных моделей, включая DHMM. Мы предполагаем, что кластеризация латентных представлений URL-STFN позволяет идентифицировать стадии БХ с уменьшением перекрытия клинических измерений. Предложенная структура оценивается с использованием 1,477 клинических визитов из набора данных Enroll-HD, крупной продольной когорты с повторными клиническими оценками. Для стадирования мы использовали 44 клинических измерения, охватывающих моторную, когнитивную и функциональную области. URL-STFN определяет клинически значимые стадии БХ, которые соответствуют установленному прогрессированию заболевания, одновременно уменьшая перекрытие значений клинических признаков по сравнению с подходами, основанными на DHMM, и клиническими стадиями. Эти выводы подчеркивают потенциал модели обучения представления на основе динамических графов и фреймворка кластеризации для поддержки более объективного, основанного на данных и точного стадирования БХ.

Искусственный интеллект
Искусственный интеллект
77%

Искусственный интеллект отвечает на вопросы пациентов о фемороацетабулярном импинджменте: полезный инструмент или риск для здоровья? Оценка ответов NIPRGPT на часто задаваемые вопросы о фемороацетабулярном импинджменте.

С развитием технологий пациенты все чаще ищут медицинскую информацию в интернете, и чат-боты на базе искусственного интеллекта (ИИ), такие как NIPRGPT — наиболее доступный инструмент ИИ для пользователей компьютеров Министерства обороны США — предлагают новый ресурс для ответов на вопросы о фемороацетабулярном импинджменте (ФАИ). На данный момент не проводилось исследований, оценивающих ответы NIPRGPT на ортопедические медицинские вопросы. Основная цель данного исследования заключалась в оценке точности, полноты и читаемости ответов NIPRGPT на распространенные вопросы о ФАИ. Были выбраны двенадцать часто задаваемых вопросов (ЧЗВ) о ФАИ из подготовленного списка и заданы NIPRGPT. Точность и достаточность ответов оценивались панелью сертифицированных хирургов по четырем критериям: отлично (без необходимости в уточнениях), удовлетворительно (необходимы минимальные уточнения), удовлетворительно (необходимы умеренные уточнения) и неудовлетворительно (необходимы существенные уточнения). Кроме того, была оценена читаемость с использованием коэффициента читаемости Флеш-Кинкейда. Из 12 ответов четыре (33,3%) были оценены как отличные, не требующие уточнения, семь (58,3%) — как удовлетворительные, требующие минимальных уточнений, и один (8,3%) — как удовлетворительный, требующий умеренных уточнений. Не было неудовлетворительных ответов. Средняя оценка качества составила 3,38 из 4,0. Однако средний коэффициент читаемости Флеш-Кинкейда составил 19,6, что соответствует уровню читаемости для лиц с послевузовским или специализированным академическим образованием. Согласованность оценок между наблюдателями была низкой, с альфа-коэффициентом Криппендорфа 0,046. NIPRGPT предоставляет ответы на ЧЗВ о ФАИ, которые в целом являются точными и надежными. Однако сложность ответов значительно превышает рекомендуемый уровень читаемости для образовательных материалов для пациентов. Хотя это может быть полезным дополнением в условиях военной медицины, где доступ к информации может быть ограничен, врачам следует учитывать высокие требования к грамотности, которые налагаются на пациентов, использующих этот инструмент.