Искусственный интеллектarXivScience Morning3 мин чтенияpreprint
Использование агентов на базе языковых моделей для генерации квантовых приложений для оптимизации тестирования
Leveraging LLM-Based Agentic Systems to Generate Quantum Applications for Test Optimization
Карточка статьи
Рубрика
Искусственный интеллект
Источник
arXiv
Дата
01.07.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Аннотация
Квантовые вычисления все активнее исследуются в области оптимизации программного обеспечения (ПО), однако перевод требований на естественном языке (ЕЯ) на уровне задач в исполняемые квантовые приложения по-прежнему требует значительных знаний в области квантовой механики и программирования. Мы представляем QPipe — архитектуру многоагентной системы на основе большой языковой модели (БЯМ), которая автономно преобразует требования на ЕЯ в отслеживаемые рабочие процессы квантовых приложений с помощью специализированных агентов для разбора требований, их формулировки, генерации кода, рецензирования, выполнения и верификации. Мы оценили QPipe на 20 требованиях на ЕЯ, каждое из которых связано с реальным бенчмарком и задачей оптимизации тестов. QPipe успешно завершил ключевые этапы генерации квантового приложения для всех требований, достигнув средних показателей 100% по компиляции кода и 96,7% по выполнению приложений и комбинированию окончательных результатов, с средними затратами на генерацию 260,1 секунды и 1,89 миллиона токенов на требование. Среди сгенерированных квантовых приложений, которые завершились успешно, полученные решения в большинстве случаев превосходят базовый уровень, заданный оффлайн-генетическим алгоритмом. Результаты абляции показывают, что преимущества QPipe зависят от сохранения навыков генерации кода, знания задач, обратной связи по рецензированию и мультиагентной декомпозиции. Эти результаты подтверждают, что координация агентов может поддерживать генерацию исполняемых квантовых приложений для решения задач оптимизации тестов на основе реальных бенчмарков.
Краткое резюме
Статья представляет QPipe — систему на основе большой языковой модели, способную преобразовывать требования на естественном языке в исполняемые квантовые приложения, существенно упрощая процесс разработки для оптимизации тестирования.
Практический вывод
QPipe демонстрирует возможность использования языковых моделей для автоматизации создания квантовых приложений, что может значительно ускорить процессы оптимизации в области программного обеспечения.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Исследование базируется на ограниченном количестве требований и бенчмарков, что может сказываться на обобщаемости результатов. Также требуется дальнейшая проверка эффективности QPipe в различных условиях и с различными типами задач.
Языковые модели, используемые в ситуациях с высокими ставками, могут потенциально благоприятствовать определенным субъектам, брендам или точкам зрения, влияя на решения пользователей в масштабах. Такие предвзятости могут быть внесены любым участником цепочки поставок модели и представляют наибольшую опасность, когда модель проявляет свои предпочтения только по соответствующей теме, оставаясь при этом идентичной своей незамененной базе по всем другим входным данным. Недавние исследования показали, что эти предвзятости могут передаваться через дистилляцию контекста на семантически не связанных данных, сигнал при этом полностью содержится в распределении мягких логитов и остается невидимым для текстовой инспекции. Однако защитник сталкивается с фундаментальной асимметрией: не зная темы предвзятости, ни один метод обнаружения не может надежно выявить скрытую предвзятость, независимо от того, анализирует ли он сгенерированный текст, внутренние представления или веса модели. В этой работе мы представляем метод Distill to Detect (D2D), который выявляет скрытые предвзятости, дистиллируя смещение распределения между подозреваемой моделью и ее базой в картридж (адаптер префикса KV-кэша), концентрируя доминирующее расхождение и усиливая сигнал предвзятости в сгенерированном тексте. Мы показываем, что D2D успешно усиливает скрытые предвзятости скрытых моделей в такой степени, что они могут быть надежно выявлены по нескольким типам предвзятости. Мы также предлагаем теоретическую основу, которая объясняет эффективность D2D через призму проекции логит-распределения, взвешенного по Фишеру, поддерживаемую эмпирическими наблюдениями. Превращая узкое место в возможности адаптеров префиксной настройки в инструмент обнаружения, D2D предоставляет практическую основу для аудита скрытых поведений в развернутых языковых моделях.
Масштабирование вычислений во время вывода, путём генерации множества параллельных попыток для каждой задачи, является дорогостоящим, но надежным способом улучшения возможностей языковых моделей. По умолчанию эти попытки создаются независимо, что приводит к потере вычислений из-за дублирующих решений. Это desperdasto кажется неизбежным. В конечном счёте, независимость делает параллельную выборку тривиально масштабируемой. Однако этот компромисс не является фундаментальным: существует богатое пространство проектирования выборщиков, которые генерируют коррелированные, но точные выборки полностью в параллельном режиме. Мы исследуем это пространство проектирования как способ повышения эффективности выборки при масштабировании вычислений вывода и обучения с подкреплением (RL). Конкретно, мы представляем QuasiMoTTo, который использует коррелированные выборки в качестве замены для выборок i.i.d. Чтобы сгенерировать эти выборки, QuasiMoTTo использует репараметризацию автогрессионной выборки в качестве выборки обратной кумулятивной функции распределения и выбирает основное равномерное распределение с помощью квази-Монте-Карло (QMC); поскольку QMC распределяет равномерные значения более равномерно, чем i.i.d., полученные выборки охватывают выходное пространство с гораздо меньшей дубликацией. Несмотря на то, что выборка коррелирована, каждая выборка распределена маргинально в соответствии с языковой моделью, поэтому мы можем использовать пакет для обучения с использованием градиента политики. Наша эмпирическая работа сосредоточена на понимании того, насколько эффективно QuasiMoTTo может преобразовывать вычисления в производительность. Для оценки коррелированных выборщиков, зависимость которых нарушает стандартные оценщики pass@k, мы сначала разрабатываем unbiased bootstrap оценку. На четырёх бенчмарках рассуждений QuasiMoTTo достигает точности pass@k, аналогичной i.i.d., используя на 25-47% меньшее число выборок. Удивительно, что QuasiMoTTo часто достигает верхней границы на pass@k, которая сохраняется для любого выборщика, сохраняющего маргинальность. Мы также применяем QuasiMoTTo к обучению с градиентом политики RL (GRPO), где он соответствует производительности i.i.d. с 50% меньшим числом шагов обучения. Эти достижения связаны с большей охватностью, что приводит к сильному сигналу обучения на пакет.
Метапознание является критически важной составляющей интеллекта, описывающей способность контролировать и регулировать собственные когнитивные процессы. Тем не менее, большие языковые модели (LLMs) демонстрируют системные недостатки в ключевых метапознавательных функциях: они создают неправильные (галлюцинирующие) ответы с высокой уверенностью, не осознают границы своих знаний и неправильно представляют свою внутреннюю неопределенность, что подрывает доверие и надежность. Учитывая, что мониторинг производительности задач и адаптация поведения в соответствии с этим являются центральными для метапознания, мы предполагаем, что модели, способные точно оценивать свою собственную производительность, лучше подготовлены для ее улучшения. Мы реализуем эту идею через два новых механизма: обучение с подкреплением с метапознавательной обратной связью (RLMF) – парадигму, позволяющую улучшать ранжирование завершений во время оптимизации предпочтений на основе качества самосуждений модели о производительности, и выбор метапознавательных данных, который использует аналогичные самосуждения для выявления ценных обучающих примеров, превосходя наивное активное обучение. Мы применяем эти инновации к проблеме надежной калибровки (FC), которая сама по себе является принципиально метапознавательной задачей: цель заключается в согласовании выраженной и внутренней неопределенности, что сложно даже для передовых LLM. Мы принимаем декомпозированный подход в два этапа: сначала используем эти методы для калибровки надежности самооценок моделей, а затем отображаем на естественную, адаптируемую по контексту языковую неопределенность через целевое редактирование выходных данных. Обширные эксперименты показывают, что RLMF достигает обобщаемой, современной надежной калибровки на различных задачах при сохранении точности. Более того, RLMF превосходит стандартное обучение с подкреплением на 63%, при этом улучшая способность моделей оценивать и выражать собственные пределы возможностей. Это ставит RLMF в качестве многообещающей парадигмы для повышения метапознавательных способностей LLM с целью улучшения возможностей моделирования и соответствия, а также предполагает, что метапознавательная производительность является эффективным сигналом обучения с подкреплением для преодоления ограничений ранее используемых методов внутренней обратной связи.
Формирование случаев (ФС) является ключевым навыком для терапевтов; однако создание качественных ФС требует значительного времени. Данное исследование направлено на демонстрацию того, что использование графа знаний на основе мета-аналитической литературы может повысить качество ФС. Были сформированы пять групп, включая 4 группы больших языковых моделей и 1 группу профессионалов, каждая из которых создала 25 ФС на основе 25 ситуаций. Контрольная группа с Claude (Sonnet 3.7; Anthropic) создала 25 ФС. Группа персонализации служила контрольной группой с дополнительными подсказками о персонализации. Группа графа знаний использовала большую языковую модель, которая сгенерировала 25 ФС, предоставленную с графом знаний по мета-анализу. Далее дополнительная персонализация составила группу графа знаний с персонализацией. Наконец, экспертная группа состояла из 25 ФС, созданных человеком-экспертом. Эти 125 ФС в общей сложности были оценены на общую качество (т.е. правильность, полнота, осуществимость и согласованность) с использованием 7-балльной шкалы и 18 основных элементов с бинарными оценками (0 или 1) другим экспертом. ФС также были качественно проанализированы. Группы графа знаний и графа знаний с персонализацией набрали значительно более высокие баллы, чем контрольная группа по таким показателям, как правильность, полнота и осуществимость. Экспертная группа значительно лучше набрала баллы за согласованность, чем группы сгенерированные машинами. Кроме того, не было значительных различий в оценках осуществимости среди групп графов знаний, графов знаний с персонализацией и экспертной группы. Качественная оценка показала, что ФС, созданные человеком, сужают текст до содержания, легко воспринимаемого клиентом, в то время как ФС, созданные машинами, более склонны включать выражения, которые неестественны для клиента. Эти результаты указывают на то, что предоставление графов знаний начинающим терапевтам увеличивает правильность, полноту и осуществимость ФС. Предоставление опытным терапевтам графов знаний также рекомендуется для улучшения качества их ФС и услуг в области психического здоровья.
Бенчмарки производительности на уровне репозитория, такие как GSO, SWE-Perf и SWE-fficiency, оценивают кодирующие агенты, применяя патчи к реальным репозиториям и сравнивая время выполнения с неоптимизированными базовыми версиями и официальными эталонными патчами. Их ранговые баллы все чаще используются как доказательство прогресса кодирующих агентов, но эти баллы могут путать нестабильность времени выполнения, специфические правила оценки бенчмарков и количество задач, уже решенных хотя бы одним публичным представлением. Мы проводим аудит этих вопросов по трем бенчмаркам. Во-первых, мы повторяем официальные эталонные патчи для 740 задач оптимизации кода на четырех распространенных типах машин Google Cloud. Большинство задач бенчмарка можно воспроизвести, но их эталонные патчи удовлетворяют оригинальным правилам действительности бенчмарка в каждом взаимном воспроизведении только для 39 из 102 задач GSO, 11 из 140 задач SWE-Perf и 411 из 498 задач SWE-fficiency; SWE-Perf особенно хрупок, поскольку многие эталонные патчи приводят к изменениям времени выполнения, близким к нулю. Во-вторых, мы показываем, что рейтинги публичных представлений сильно зависят от правил оценки бенчмарка. Среди восьми публичных представлений, представленных GSO и SWE-fficiency, официальные рейтинги расходятся по 9 из 28 парных сравнений представлений, а правила оценки рангового списка SWE-fficiency присваивают наихудшим десяти задачам неоправданно высокие веса баллов от 58,5% до 82,8%. В-третьих, если взглянуть на 10 публичных представлений для каждой задачи, мы обнаруживаем, что хотя бы одно представление соответствует или превосходит эталонный патч по 85,3% (384 из 450) задач GSO и SWE-fficiency и превосходит неоптимизированный базовый код по 99,8% (449 из 450). Наше исследование дополняет ранговые баллы, выявляя задачи с более надежными показателями производительности, количественно оценивая вклады в баллы по задачам и раскрывая оставшиеся разрывы в производительности, которые скрыты под агрегированными рейтингами.
В автономных лабораториях агенты ИИ предлагают следующий пакет экспериментов. Однако планирование и выполнение этих задач с полным использованием доступных ресурсов - это совершенно другой вопрос. Это может быть сложно при работе с ограничениями реального оборудования, особенно когда имеется несколько инструментов с разной пропускной способностью и мощностью. В данной работе мы демонстрируем метод из двух этапов для решения задачи использования ресурсов нашей автономной платформы для синтеза металлоорганических каркасов. Сначала мы используем ограниченное программирование для нахождения оптимальных расписаний, которые минимизируют общее время, при этом удовлетворяя ограничениям и мощностям оборудования. Во-вторых, мы используем систему зависимостей статусов для каждой задачи, что позволяет надежно выполнять оптимальные расписания.