Искусственный интеллектarXivScience Morning3 мин чтенияpreprint
Ценообразование нейронных сертификатов для задач комбинаторной оптимизации
Neural Certificate Pricing for Combinatorial Optimization Problems
Карточка статьи
Рубрика
Искусственный интеллект
Источник
arXiv
Дата
01.07.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Аннотация
Задачи комбинаторной оптимизации (ЗКО) сложны, поскольку сертифицируемая дискретная структура порождает экспоненциальный поиск. Необходимо исследовать множество экспоненциально больших кандидатов для сертификации оптимальности; однако структурную состоятельность пути, упаковки или покрытия можно проверить за полиномиальное время, если она уже задана. В этом исследовании мы представляем Ценообразование Нейронных Сертификатов (ЦНС), которое использует эту асимметрию в рамках обучения без учителя. Нейронная сеть обучается предсказывать двойственные цены на уровне сертификата, в то время как структурный слой восстановления строит индуктивные первичные маржи. ЦНС можно рассматривать как амортизированное отделение: вместо перечисления нарушенных неравенств она обучается остаточным ценам, через которые их суммарный эффект входит в восстановление. Когда выполняется условие согласованности сертификата, восстановленная маржа является глобально состоятельной, а локальная теория показывает, что ошибки первого порядка в предсказанной цене вызывают только потери второго порядка в целевой функции. В трех классах ЗКО ЦНС либо значительно превосходит современные нейронные базовые модели, либо сопоставима с ними при меньших вычислительных затратах и показывает более сильную обобщаемость вне распределения.
Краткое резюме
В статье представлено новое подход к задачам комбинаторной оптимизации с использованием нейронных сетей для предсказания цен на сертификаты, что позволяет сократить время вычислений и повысить эффективность поиска оптимальных решений.
Практический вывод
Нейронные сети могут значительно улучшить процесс решения сложных задач комбинаторной оптимизации за счет более быстрых и эффективных методов предсказания цен на сертификаты.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Данное исследование основано на предварительных результатах и может иметь ограничения, связанные с применяемыми методами и выбором классов задач, требующими дальнейшего экспериментального подтверждения.
Квантовые вычисления все активнее исследуются в области оптимизации программного обеспечения (ПО), однако перевод требований на естественном языке (ЕЯ) на уровне задач в исполняемые квантовые приложения по-прежнему требует значительных знаний в области квантовой механики и программирования. Мы представляем QPipe — архитектуру многоагентной системы на основе большой языковой модели (БЯМ), которая автономно преобразует требования на ЕЯ в отслеживаемые рабочие процессы квантовых приложений с помощью специализированных агентов для разбора требований, их формулировки, генерации кода, рецензирования, выполнения и верификации. Мы оценили QPipe на 20 требованиях на ЕЯ, каждое из которых связано с реальным бенчмарком и задачей оптимизации тестов. QPipe успешно завершил ключевые этапы генерации квантового приложения для всех требований, достигнув средних показателей 100% по компиляции кода и 96,7% по выполнению приложений и комбинированию окончательных результатов, с средними затратами на генерацию 260,1 секунды и 1,89 миллиона токенов на требование. Среди сгенерированных квантовых приложений, которые завершились успешно, полученные решения в большинстве случаев превосходят базовый уровень, заданный оффлайн-генетическим алгоритмом. Результаты абляции показывают, что преимущества QPipe зависят от сохранения навыков генерации кода, знания задач, обратной связи по рецензированию и мультиагентной декомпозиции. Эти результаты подтверждают, что координация агентов может поддерживать генерацию исполняемых квантовых приложений для решения задач оптимизации тестов на основе реальных бенчмарков.
Живые организмы полагаются на молекулярные сети, такие как генетические цепи и сигнальные пути, для обработки информации и надежного принятия решений в переполненных и шумных средах. Последние достижения показывают, что взаимодействующие биомолекулы самоорганизуются посредством фазовых переходов в сосуществующие пространственные компартменты, называемые конденсатами, зачастую на клеточных поверхностях, таких как хроматин и мембраны. В данной работе мы демонстрируем, что многокомпонентные жидкости могут быть спроектированы для рекрутинга различных конденсатов на поверхности с различными составами, выполняя форму классификации поверхности посредством конденсации. Мы проводим аналогию с многомерной классификацией в машинном обучении и исследуем, как скрытые виды, аналогичные скрытым узлам, расширяют выразительность и емкость этих взаимодействующих ансамблей для облегчения сложных границ решений. Простое изменение уровней отдельных видов позволяет повторно запрограммировать тот же молекулярный репертуар для решения новых задач. Наши выводы показывают, что физические процессы, лежащие в основе биомолекулярных конденсатов, могут кодировать и управлять адаптивной обработкой информации, выходя за рамки компартментализации.
Бенчмарки производительности на уровне репозитория, такие как GSO, SWE-Perf и SWE-fficiency, оценивают кодирующие агенты, применяя патчи к реальным репозиториям и сравнивая время выполнения с неоптимизированными базовыми версиями и официальными эталонными патчами. Их ранговые баллы все чаще используются как доказательство прогресса кодирующих агентов, но эти баллы могут путать нестабильность времени выполнения, специфические правила оценки бенчмарков и количество задач, уже решенных хотя бы одним публичным представлением. Мы проводим аудит этих вопросов по трем бенчмаркам. Во-первых, мы повторяем официальные эталонные патчи для 740 задач оптимизации кода на четырех распространенных типах машин Google Cloud. Большинство задач бенчмарка можно воспроизвести, но их эталонные патчи удовлетворяют оригинальным правилам действительности бенчмарка в каждом взаимном воспроизведении только для 39 из 102 задач GSO, 11 из 140 задач SWE-Perf и 411 из 498 задач SWE-fficiency; SWE-Perf особенно хрупок, поскольку многие эталонные патчи приводят к изменениям времени выполнения, близким к нулю. Во-вторых, мы показываем, что рейтинги публичных представлений сильно зависят от правил оценки бенчмарка. Среди восьми публичных представлений, представленных GSO и SWE-fficiency, официальные рейтинги расходятся по 9 из 28 парных сравнений представлений, а правила оценки рангового списка SWE-fficiency присваивают наихудшим десяти задачам неоправданно высокие веса баллов от 58,5% до 82,8%. В-третьих, если взглянуть на 10 публичных представлений для каждой задачи, мы обнаруживаем, что хотя бы одно представление соответствует или превосходит эталонный патч по 85,3% (384 из 450) задач GSO и SWE-fficiency и превосходит неоптимизированный базовый код по 99,8% (449 из 450). Наше исследование дополняет ранговые баллы, выявляя задачи с более надежными показателями производительности, количественно оценивая вклады в баллы по задачам и раскрывая оставшиеся разрывы в производительности, которые скрыты под агрегированными рейтингами.
Экспертиза в памяти является приобретенным навыком: знание того, что кодировать, когда извлекать и как организовывать знания — это способность, известная в когнитивной науке как метапамять. Мы применяем эту перспективу к большим языковым моделям (LLMs), рассматривая управление памятью как обучаемый навык. Мы придаем операциям файловой системы статус основных действий памяти наряду с действиями по выполнению задач, позволяя модели самостоятельно решать, как управлять своей памятью. Этот навык памяти улучшается по двум направлениям: структура, которая его поддерживает (подсказки, схемы файлов, словарь действий), и умение модели его применять. Оба направления устойчивы к ручной оптимизации: эпизоды в долгосрочных задачах выполняются на протяжении тысяч шагов, и одна ошибка в памяти может оставаться незамеченной на долгое время, что делает человеческий обзор полных траекторий непрактичным. Мы представляем AutoMem, фреймворк, который автоматизирует оба направления. В первом цикле сильная LLM просматривает полные траектории агента и итеративно пересматривает структуру памяти, которая определяет, как агент взаимодействует со своими файлами памяти. Во втором цикле хорошие решения агента по памяти идентифицируются из множества эпизодов и используются в качестве обучающего сигнала для прямого улучшения мастерства модели в управлении памятью. В трех процедурно сгенерированных долгосрочных играх (Crafter, MiniHack и NetHack) оптимизация памяти отдельно — без изменения поведения модели в действиях по выполнению задач — улучшила производительность базового агента примерно в 2-4 раза, позволив 32B модели с открытыми весами конкурировать с передовыми системами, такими как Claude Opus 4.5 и Gemini 3.1 Pro Thinking. Наши результаты показывают, что управление памятью является независимо обучаемым навыком и представляет собой цель с высоким потенциалом, обеспечивающую значительные улучшения в долгосрочных задачах.
Трансформеры используют один и тот же поток вычислений для предсказания следующего токена и хранения полезного состояния для будущих предсказаний токенов. Мы формулируем гипотезу о разделении предсказания состояния: разделение этих двух ролей обеспечивает лучшую производительность языкового моделирования. Мы разрабатываем вариант трансформера, который использует два вычислительных потока для разделения этих функций, и проводим эксперименты по предварительному обучению на данных различного масштаба. Наши эксперименты показывают, что разделение предсказания состояния последовательно предлагает лучшую эффективность данных и вычислений, улучшая показатель валидации и превосходя стандартные трансформеры в среднем на 2-3 процентных пункта по downstream задачам. Мы также проводим обширный эмпирический анализ, который исключает потенциальные конфаундеры и демонстрирует принципиальное различие в градиентах, которое влечет наш дизайн.
Текущие исследования в области роботизированной сборки мебели в основном сосредоточены на игрушечных масштабах или манипуляциях с одной рукой. Мы представляем FurnitureVLA, первое систематическое исследование бимануальной сборки мебели в реальном масштабе с использованием моделей видения-языка-действия (VLA). Мы формализуем задачу, разрабатываем масштабируемый симуляционный конвейер для генерации и оценки экспертных данных и создаем систему телеприсутствия в виртуальной реальности для управления бимануально одним оператором с целью сбора качественных демонстраций из реального мира. Чтобы справиться с экстремально долгосрочной сборкой, которая включает до 7 подсостояний и 1550 контрольных шагов, мы предлагаем улучшенную модель VLA, донастроенную на семантически обоснованные подсостояния, которая совместно предсказывает действия и непрерывный сигнал прогресса, позволяя автоматически переходить между подсостояниями и снижая накопление ошибок во время вывода. Мы также исследуем факторы проектирования восприятия и управления, которые критически влияют на точность в сборке в реальном масштабе. FurnitureVLA улучшает средний уровень успеха симуляции с 48% до 80% по сравнению с базовыми показателями для трех типов мебели, с дополнительным приростом в 21% благодаря изучению факторов проектирования. Мы валидируем на реальной платформе Kinova Gen3 с только 16% снижением на наиболее сложной задаче.