Искусственный интеллектarXivScience Morning3 мин чтенияpreprint

Надежно ли производительность-оптимизационные бенчмарки измеряют качество кода агентов?

Are Performance-Optimization Benchmarks Reliably Measuring Coding Agents?

Рубрика
Искусственный интеллект
Источник
arXiv
Дата
01.07.2026
Автор
Science Morning
Время чтения
3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Искусственный интеллект

Краткое резюме

В данной работе проводится аудит надежности бенчмарков для оценки производительности кодирующих агентов, выявляются проблемы с воспроизведением, правилами оценки и реальной эффективностью подач.

Практический вывод

Результаты показывают, что многие показатели производительности бенчмарков могут быть ненадежными, и существует потребность в более тщательном анализе выполнения задач.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. Исследование ограничено выборкой из трех бенчмарков и может не учитывать все аспекты производительности, возникающие в практических приложениях.

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Искусственный интеллект
Искусственный интеллект
100%

Обучение с подкреплением с метапознавательной обратной связью вызывает надежное выражение неопределенности в больших языковых моделях

Метапознание является критически важной составляющей интеллекта, описывающей способность контролировать и регулировать собственные когнитивные процессы. Тем не менее, большие языковые модели (LLMs) демонстрируют системные недостатки в ключевых метапознавательных функциях: они создают неправильные (галлюцинирующие) ответы с высокой уверенностью, не осознают границы своих знаний и неправильно представляют свою внутреннюю неопределенность, что подрывает доверие и надежность. Учитывая, что мониторинг производительности задач и адаптация поведения в соответствии с этим являются центральными для метапознания, мы предполагаем, что модели, способные точно оценивать свою собственную производительность, лучше подготовлены для ее улучшения. Мы реализуем эту идею через два новых механизма: обучение с подкреплением с метапознавательной обратной связью (RLMF) – парадигму, позволяющую улучшать ранжирование завершений во время оптимизации предпочтений на основе качества самосуждений модели о производительности, и выбор метапознавательных данных, который использует аналогичные самосуждения для выявления ценных обучающих примеров, превосходя наивное активное обучение. Мы применяем эти инновации к проблеме надежной калибровки (FC), которая сама по себе является принципиально метапознавательной задачей: цель заключается в согласовании выраженной и внутренней неопределенности, что сложно даже для передовых LLM. Мы принимаем декомпозированный подход в два этапа: сначала используем эти методы для калибровки надежности самооценок моделей, а затем отображаем на естественную, адаптируемую по контексту языковую неопределенность через целевое редактирование выходных данных. Обширные эксперименты показывают, что RLMF достигает обобщаемой, современной надежной калибровки на различных задачах при сохранении точности. Более того, RLMF превосходит стандартное обучение с подкреплением на 63%, при этом улучшая способность моделей оценивать и выражать собственные пределы возможностей. Это ставит RLMF в качестве многообещающей парадигмы для повышения метапознавательных способностей LLM с целью улучшения возможностей моделирования и соответствия, а также предполагает, что метапознавательная производительность является эффективным сигналом обучения с подкреплением для преодоления ограничений ранее используемых методов внутренней обратной связи.

Искусственный интеллект
Искусственный интеллект
95%

Графы знаний на основе мета-анализов улучшают качество формирования случаев: смешанный метод исследования.

Формирование случаев (ФС) является ключевым навыком для терапевтов; однако создание качественных ФС требует значительного времени. Данное исследование направлено на демонстрацию того, что использование графа знаний на основе мета-аналитической литературы может повысить качество ФС. Были сформированы пять групп, включая 4 группы больших языковых моделей и 1 группу профессионалов, каждая из которых создала 25 ФС на основе 25 ситуаций. Контрольная группа с Claude (Sonnet 3.7; Anthropic) создала 25 ФС. Группа персонализации служила контрольной группой с дополнительными подсказками о персонализации. Группа графа знаний использовала большую языковую модель, которая сгенерировала 25 ФС, предоставленную с графом знаний по мета-анализу. Далее дополнительная персонализация составила группу графа знаний с персонализацией. Наконец, экспертная группа состояла из 25 ФС, созданных человеком-экспертом. Эти 125 ФС в общей сложности были оценены на общую качество (т.е. правильность, полнота, осуществимость и согласованность) с использованием 7-балльной шкалы и 18 основных элементов с бинарными оценками (0 или 1) другим экспертом. ФС также были качественно проанализированы. Группы графа знаний и графа знаний с персонализацией набрали значительно более высокие баллы, чем контрольная группа по таким показателям, как правильность, полнота и осуществимость. Экспертная группа значительно лучше набрала баллы за согласованность, чем группы сгенерированные машинами. Кроме того, не было значительных различий в оценках осуществимости среди групп графов знаний, графов знаний с персонализацией и экспертной группы. Качественная оценка показала, что ФС, созданные человеком, сужают текст до содержания, легко воспринимаемого клиентом, в то время как ФС, созданные машинами, более склонны включать выражения, которые неестественны для клиента. Эти результаты указывают на то, что предоставление графов знаний начинающим терапевтам увеличивает правильность, полноту и осуществимость ФС. Предоставление опытным терапевтам графов знаний также рекомендуется для улучшения качества их ФС и услуг в области психического здоровья.

Искусственный интеллект
Искусственный интеллект
92%

QVal: Экономичная оценка сигналов плотного контроля для агентов LLM на длинных горизонтах

Агенты LLM все чаще действуют на длинных горизонтах, где одна траектория может содержать сотни или тысячи действий. В таких случаях награды, основанные только на результатах, предоставляют слишком скудные сигналы, не информируя модель о качестве промежуточных действий. Методы плотного контроля旨енты к решению этой проблемы путем оценки промежуточных шагов, начиная от внутренней уверенности и заканчивая самодистилляцией и сходством вложений. Однако обычно эти методы оцениваются путем измерения последующей производительности тренировочного процесса, который интегрирует их. Это дорого, смешивает качество контроля с инженерными факторами обучения и делает различные методологические группы несравнимыми из-за необходимости различных настроек обучения. В результате методы плотного контроля редко проверяются на общем основании. Мы представляем QVal, тестовую платформу без необходимости в обучении для прямой оценки сигналов плотного контроля. Учитывая пару состояние-действие, QVal измеряет, насколько хорошо оценка метода соответствует Q: упорядочивает ли она действия согласно Q-значениям сильной эталонной политики. Это позволяет нам сравнивать сигналы еще до любого запуска обучения и отделять качество сигнала от других инженерных решений. Мы внедрили QVal в виде QVal-v1.0, оценив 21 метод плотного контроля в четырех различных средах и семи методологических группах, проведя более 1,2 тысячи экспериментов по оценке на шести основных моделях с открытыми весами. Мы обнаружили, что простые базовые подходы к подсказкам постоянно превосходят современные методы плотного контроля из литературы, и что производительность сильно кластеризуется по семействам. Эти результаты подтверждаются на различных размерах моделей, средах и модальностях наблюдения. QVal разработан с учетом простоты расширения для новых сред и методов, что позволяет исследователям дорабатывать методы плотного контроля до любого запуска обучения.

Искусственный интеллект
Искусственный интеллект
85%

Адаптивное многоуровневое графовое представление с оптимизационно-ориентированным вниманием для надежной ассоциации ячеек в сетях V2X 5G.

Эффективная ассоциация ячеек остается фундаментальной задачей в системах пятого поколения (5G) «автомобиль-все» (V2X) из-за быстрых изменений топологии, гетерогенных развертываний и строгих требований к задержке. Конвенциональные подходы на основе обучения часто опираются на мелкие представления или независимые стратегии оптимизации, что ограничивает их адаптивность в густых и быстро меняющихся условиях. В данной работе предлагается структура многоуровневого графового представления, которая моделирует взаимодействия между автомобилями и базовыми станциями в иерархических пространственных структурах. Предложенный подход интегрирует контекстное встраивание узлов с графовым обучением, основанным на внимании, для выявления паттернов мобильности, характеристик сигналов и зависимостей нагрузки сети. Кроме того, в механизм обучения на стадии подготовки включен оптимизационный механизм для уточнения параметров внимания, что улучшает сходимость без увеличения сложности вывода. Структура была оценена на реальном наборе данных мобильности автомобилей, что продемонстрировало постоянные улучшения в стабильности ассоциации, надежности переключения и общей производительности сети по сравнению с существующими методами глубокого обучения и графами. Экспериментальные результаты показывают приросты точности (94,17%) и F1-меры (93,93%), что указывает на повышение устойчивости решений в динамических условиях. Хотя валидация проводилась на городском наборе данных, предложенная архитектура обеспечивает масштабируемую основу для адаптивного выбора ячеек в системах интеллектуального транспорта следующего поколения.

Искусственный интеллект
Искусственный интеллект
85%

Обучение предпочтениям в произвольной форме для робототехнической манипуляции

Дизайн вознаграждений остается центральным узким местом для улучшения политики автономных роботов, особенно в задачах манипуляции с длительным горизонтом, где разрозненные метки успеха предоставляют слишком слабый сигнал, а бинарные предпочтения сводят множество конкурирующих представлений о качестве в один неоднозначный сигнал. Мы представляем Метод Обучения Предпочтениям в Произвольной Форме (FPL), который позволяет обучать роботам на основе произвольных человеческих предпочтений. Вместо того чтобы спрашивать аннотаторов, какая из двух траекторий лучше в целом, FPL позволяет им определять оси предпочтений на естественном языке, такие как скорость, безопасность, качество размещения или аккуратность, и предоставлять парные предпочтения вдоль каждой оси. Эти аннотации используются для обучения модели вознаграждения, обусловленной языком, которая преобразует траекторию и метку предпочтения в вознаграждение, специфичное для оси. Мы используем эту модель для обучения политики, обусловленной вознаграждением, которая оптимизирует по нескольким заданным человеком измерениям. В четырех реальных задачах манипуляции и двух смоделированных задачах с длительным горизонтом FPL превосходит методы с разрозненным вознаграждением и бинарными предпочтениями на 38 процентных пунктов. Помимо улучшенной производительности, FPL обучает плотные сигналы прогресса без явной сегментации подтасков, демонстрирует композиционность поведения, отсутствующую в данных, и позволяет пользователям направлять политику к различным видам поведения на этапе тестирования без повторного обучения. Запись в блоге с видео доступна по адресу https://freeform-pl.github.io/fpl.website/

Искусственный интеллект
Искусственный интеллект
85%

Глубокое обучение для автоматизированного ультразвукового исследования бедер у младенцев: к надежной генерализации через спектр заболеваний и устройства.

В данном исследовании рассматривается применение методов глубокого обучения для автоматизации процесса ультразвукового исследования бедер у младенцев. Основное внимание уделяется достижению надежной генерализации модели на различных устройствах и в условиях различных заболеваний, что является критически важным для повышения точности диагностики.