Искусственный интеллектarXivScience Morning3 мин чтенияpreprint

AxDafny: Генерация кода с агентным подтверждением в Dafny

AxDafny: Agentic Verified Code Generation in Dafny

Рубрика
Искусственный интеллект
Источник
arXiv
Дата
30.06.2026
Автор
Science Morning
Время чтения
3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Искусственный интеллект

Краткое резюме

Статья представляет AxDafny, новую систему генерации кода в Dafny, которая автоматически создает как исполняемый код, так и необходимые доказательства для его верификации. Система достигает значительных успехов в верификации, особенно в заданиях, переведенных на Dafny, и демонстрирует, что успешность верификации не всегда коррелирует с производительностью тестов.

Практический вывод

AxDafny может значительно улучшить процесс генерации кода и верификации в Dafny, что делает его полезным инструментом для разработчиков, работающих над сложными программными задачами, где необходимы формальные доказательства корректности.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. Исследование ограничено задачами, представленными в LCB-Pro-Dafny, и его результаты могут не полностью отражать эффективность AxDafny в более широком круге задач программирования. Также необходимо учитывать, что данная работа является предварительной и требует дальнейшей проверки и верификации результатов.

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Искусственный интеллект
Искусственный интеллект
82%

KRCA: Эффективная система анализа коренных причин в гипермасштабируемых микросервисных системах с использованием агентного ИИ

Гипермасштабируемые микросервисные системы стали стандартной инфраструктурой для крупных интернет-компаний. Эти системы состоят из множества слабо связанных микросервисов, которые развиваются независимо через постоянную разработку и развертывание. Такая сложность делает сбои неизбежными, что требует эффективного анализа коренных причин (RCA), чтобы помочь инженерам по надежности сайтов (SRE) быстро локализовать корневые сервисы и классифицировать типы сбоев. Однако существующие методы RCA часто сталкиваются с трудностями в адаптации к экстремальной динамичности и масштабам этих систем. В этой работе мы представляем KRCA, сквозную систему RCA, разработанную для гипермасштабируемых микросервисных систем. Для управления обширным пространством поиска KRCA использует многоступенчатый конвейер, который начинается с досконального анализа на уровне API для изоляции подозрительных сервисов. Затем он создает граф причинно-следственных связей на основе аномальных метрик, чтобы служить высокореколлным структурным приоритетом, прежде чем использовать память-расширенную многоагентную структуру для проверки причинности и генерации окончательного отчета о сбое. Объединив структурированные причинно-следственные ограничения с многоагентным рассуждением, KRCA обеспечивает баланс между диагностической точностью и требованиями к эффективности для использования в реальном времени. Экспериментальные результаты показывают, что KRCA достигает оценок AC@1 0.88 и 0.79 для локализации корневых сервисов и классификации типов сбоев, превосходя самые сильные базовые показатели по крайней мере на 31% в абсолютных приростах. KRCA была внедрена в производственной среде Kuaishou на протяжении более шести месяцев, что позволило сократить среднее время диагностики на 77.3%.

Искусственный интеллект
Искусственный интеллект
82%

Надежно ли производительность-оптимизационные бенчмарки измеряют качество кода агентов?

Бенчмарки производительности на уровне репозитория, такие как GSO, SWE-Perf и SWE-fficiency, оценивают кодирующие агенты, применяя патчи к реальным репозиториям и сравнивая время выполнения с неоптимизированными базовыми версиями и официальными эталонными патчами. Их ранговые баллы все чаще используются как доказательство прогресса кодирующих агентов, но эти баллы могут путать нестабильность времени выполнения, специфические правила оценки бенчмарков и количество задач, уже решенных хотя бы одним публичным представлением. Мы проводим аудит этих вопросов по трем бенчмаркам. Во-первых, мы повторяем официальные эталонные патчи для 740 задач оптимизации кода на четырех распространенных типах машин Google Cloud. Большинство задач бенчмарка можно воспроизвести, но их эталонные патчи удовлетворяют оригинальным правилам действительности бенчмарка в каждом взаимном воспроизведении только для 39 из 102 задач GSO, 11 из 140 задач SWE-Perf и 411 из 498 задач SWE-fficiency; SWE-Perf особенно хрупок, поскольку многие эталонные патчи приводят к изменениям времени выполнения, близким к нулю. Во-вторых, мы показываем, что рейтинги публичных представлений сильно зависят от правил оценки бенчмарка. Среди восьми публичных представлений, представленных GSO и SWE-fficiency, официальные рейтинги расходятся по 9 из 28 парных сравнений представлений, а правила оценки рангового списка SWE-fficiency присваивают наихудшим десяти задачам неоправданно высокие веса баллов от 58,5% до 82,8%. В-третьих, если взглянуть на 10 публичных представлений для каждой задачи, мы обнаруживаем, что хотя бы одно представление соответствует или превосходит эталонный патч по 85,3% (384 из 450) задач GSO и SWE-fficiency и превосходит неоптимизированный базовый код по 99,8% (449 из 450). Наше исследование дополняет ранговые баллы, выявляя задачи с более надежными показателями производительности, количественно оценивая вклады в баллы по задачам и раскрывая оставшиеся разрывы в производительности, которые скрыты под агрегированными рейтингами.

Искусственный интеллект
Искусственный интеллект
82%

Использование агентов на базе языковых моделей для генерации квантовых приложений для оптимизации тестирования

Квантовые вычисления все активнее исследуются в области оптимизации программного обеспечения (ПО), однако перевод требований на естественном языке (ЕЯ) на уровне задач в исполняемые квантовые приложения по-прежнему требует значительных знаний в области квантовой механики и программирования. Мы представляем QPipe — архитектуру многоагентной системы на основе большой языковой модели (БЯМ), которая автономно преобразует требования на ЕЯ в отслеживаемые рабочие процессы квантовых приложений с помощью специализированных агентов для разбора требований, их формулировки, генерации кода, рецензирования, выполнения и верификации. Мы оценили QPipe на 20 требованиях на ЕЯ, каждое из которых связано с реальным бенчмарком и задачей оптимизации тестов. QPipe успешно завершил ключевые этапы генерации квантового приложения для всех требований, достигнув средних показателей 100% по компиляции кода и 96,7% по выполнению приложений и комбинированию окончательных результатов, с средними затратами на генерацию 260,1 секунды и 1,89 миллиона токенов на требование. Среди сгенерированных квантовых приложений, которые завершились успешно, полученные решения в большинстве случаев превосходят базовый уровень, заданный оффлайн-генетическим алгоритмом. Результаты абляции показывают, что преимущества QPipe зависят от сохранения навыков генерации кода, знания задач, обратной связи по рецензированию и мультиагентной декомпозиции. Эти результаты подтверждают, что координация агентов может поддерживать генерацию исполняемых квантовых приложений для решения задач оптимизации тестов на основе реальных бенчмарков.

Искусственный интеллект
Искусственный интеллект
72%

TRIAGE: Наращивание кредита с учетом роли для агентного обучения с подкреплением

Агентное обучение с подкреплением требует назначения кредита действиям, направленным на взаимодействие с окружением, таким как поиски, клики, редактирования, команды навигации и взаимодействия с объектами. Стандартный GRPO использует итоговый результат проверки как единый сигнал преимущества для всех токенов действий. Этот сигнал результата полезен, но структурно неполон: он наказывает полезные исследования в неудачных имитациях и усиливает избыточные или регрессивные действия в успешных результатах. Мы предлагаем TRIAGE, структуру назначения кредита с учетом роли, которая добавляет семантическую ось роли к кредиту результата. Структурированный судья классифицирует каждый сегмент как решающий прогресс, полезное исследование, инфраструктуру без прогресса или регрессию, а фиксированное правило, зависящее от роли, отображает эти метки на ограниченные вознаграждения процесса на уровне сегмента. Это сохраняет результаты проверки как источник направления оптимизации, при этом correcting два основных слепых пятна кредита, основанного только на результате. Мы также показываем, что кредит, зависящий от роли, является оптимальной коррекцией на уровне сегмента, которую можно выразить исключительно из меток ролей — проекцией остатка преимущества на сегмент на переменную роли, — таким образом фиксированные роли снижают ошибку оценки преимущества, когда судья надежен, и мы связываем это со снижением дисперсии градиентов политики. В ALFWorld, Search-QA и WebShop TRIAGE повышает показатели успеха по сравнению с GRPO для двух моделей политики и превышает как процессные вознаграждения, извлеченные из судьи, так и базу значений, контролируемую результатом. Аблации показывают, что прирост происходит благодаря типизации ролей, а не просто добавлению плотных вознаграждений: надежное обнаружение регрессии внутри успешных траекторий является доминирующим элементом, в то время как кредит на исследование предоставляет устойчивый вторичный прирост; на завершенных результатах ALFWorld и WebShop TRIAGE также снижает количество ходов, направленных на окружение, на дополнительные 10.4% и 14.8% соответственно по сравнению с GRPO.

Искусственный интеллект
Искусственный интеллект
72%

FedLAB: Прослеживаемые семантические кодбуки для федеративного многомодального обучения на графах

Модели оснований многомодальных графов стремятся извлекать повторно используемые знания из графов, обогащенных текстом, изображениями, атрибутами и реляционной топологией, тем самым поддерживая разнообразные задачи, связанные как с графами, так и с модальностями. Однако на практике такие многомодальные графы часто распределены между децентрализованными клиентами, где сырые данные и локальные структуры не могут быть централизованно обменяны из-за ограничений по конфиденциальности. Это побуждает к созданию федеративного многомодального обучения на графах, которое требует не только возможности переноса представлений, но и внутренней семантической прослеживаемости при строгой изоляции данных. Существующие методы обычно обмениваются или хранят знания через параметры, прототипы, встраивания или компактные кодбуки, которые поддерживают оптимизацию и перенос, но не раскрывают, как модальные доказательства, семантика узлов и контекст топологии совместно поддерживают предсказания. Чтобы преодолеть этот разрыв, мы предлагаем FedLAB, структуру прослеживаемых семантических кодбуков, которая организует знания о многомодальных графах в типизированные иерархические кодбуки для модальных доказательств, семантики узлов и контекста топологии. FedLAB дополнительно уточняет эти семантические единицы через предобучение на федеративной семантической барицентре, сохраняя при этом сырые многомодальные данные и структуры графов локальными. Обширные эксперименты на 10 тестовых наборах и 6 задачах конечного использования показывают, что FedLAB превосходит современные базовые методы до 7,53%, при этом сохраняя нативный интерфейс семантической прослеживаемости.

Искусственный интеллект
Искусственный интеллект
72%

Усиление сигнала о членстве через цепную регенерацию

Тенденция крупных генеративных моделей запоминать обучающие данные делает проверку выборки критически важной для аудита конфиденциальности и соблюдения авторских прав. Текущие атаки на членство (MIA) и вывод о наборе данных (DI) часто полагаются на одноразовые генерации, что приводит к слабым сигналах и ограниченной чувствительности к различным модальностям. Вдохновленные Расстройством Автофагии Моделей (MAD), мы представляем MADreMIA, модельно-агностическую структуру, которая улучшает белые, серые и черные атаки MIA и DI. Вместо того чтобы полагаться на обучение теневых моделей, что часто является непрактичным для крупных генеративных моделей, наша структура облегчает масштабируемый вывод, используя присущие сигналы через итеративные траектории. Этот процесс использует цепные генерации в различных модальностях, где каждый выход служит последующим входом, для улучшения доказательства членства при низком уровне ложноположительных срабатываний. Мы демонстрируем, что запомненные обучающие образцы обладают значительно большей когерентностью и медленнее деградируют во время итеративной регенерации, чем необсуждаемые генерации. Наши результаты показывают, что MADreMIA предоставляет более богатые сигналы для различных моделей и модальностей; мы представляем полные оценки для IAR, диффузионных и языковых моделей, а также предварительные результаты, демонстрирующие ее потенциал для аудиомоделей.