Искусственный интеллектarXivScience Morning3 мин чтенияpreprint
QuasiMoTTo: Квази-Монте-Карло и масштабирование во время тестирования
QuasiMoTTo: Quasi-Monte Carlo Test-Time Scaling
Карточка статьи
Рубрика
Искусственный интеллект
Источник
arXiv
Дата
01.07.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Краткое резюме
QuasiMoTTo представляет собой новый метод для эффективного масштабирования вычислительных затрат на вывод языковых моделей, позволяя получать коррелированные выборки, которые улучшают покрытие выходного пространства при меньших затратах на выборки.
Практический вывод
QuasiMoTTo позволяет значительно улучшить эффективность языковых моделей, вызывая меньше выборок для достижения аналогичной производительности, что может снизить затраты на вычисления.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Исследование сосредоточено на определенных задачах рассуждения и может не применять свои достижения ко всем типам обучающих процессов и языковым моделям.
В данной статье рассматривается робастное оптимальное управление в реальном времени для неопределенных нелинейных систем, где линейные временные приближения (LTV) упрощают планирование, но требуют достоверных оценок ошибок линейзации (LEBs) для обеспечения соблюдения устойчивых ограничений. Мы разработали строгие, дифференцируемые оценки ошибок линейзации на GPU для LTV-аппроксимаций нелинейной динамики и динамики нейронных сетей (NN). Для аналитической динамики мы вводим оценки Гессиана на основе пути, которые являются более строгими, чем стандартные интервальные методы. Для динамики NN мы выводим сертифицированные LEB, используя аффинные релаксации, сгенерированные верификатором NN, и локальные коррекции Якобиана. Мы адаптировали парный LTV-составляющий решатель для робастного управления на уровне систем, чтобы он соответствовал этим LEB, расширив его на обработку правообратимых матриц возмущений и нецентрицированных наборов возмущений для строгого зонотопного распространения неопределенности. Наш метод, GPUSLS-LEO, позволяет онлайн-оптимизацию робастных обратных стратегий, учитывающих ошибку линейзации, обеспечивая надежные, формально проверенные достигнутые трубки. На комплексных нелинейных и NN динамиках с размерностями до 168 состояний наш метод может вычислять робастные стратегии управления на GPU со скоростью до 67 Гц, снижая время решения и консервативность по сравнению с базовыми решениями, сохраняя при этом формальные гарантии и производительность в реальном времени.
Квантовые вычисления все активнее исследуются в области оптимизации программного обеспечения (ПО), однако перевод требований на естественном языке (ЕЯ) на уровне задач в исполняемые квантовые приложения по-прежнему требует значительных знаний в области квантовой механики и программирования. Мы представляем QPipe — архитектуру многоагентной системы на основе большой языковой модели (БЯМ), которая автономно преобразует требования на ЕЯ в отслеживаемые рабочие процессы квантовых приложений с помощью специализированных агентов для разбора требований, их формулировки, генерации кода, рецензирования, выполнения и верификации. Мы оценили QPipe на 20 требованиях на ЕЯ, каждое из которых связано с реальным бенчмарком и задачей оптимизации тестов. QPipe успешно завершил ключевые этапы генерации квантового приложения для всех требований, достигнув средних показателей 100% по компиляции кода и 96,7% по выполнению приложений и комбинированию окончательных результатов, с средними затратами на генерацию 260,1 секунды и 1,89 миллиона токенов на требование. Среди сгенерированных квантовых приложений, которые завершились успешно, полученные решения в большинстве случаев превосходят базовый уровень, заданный оффлайн-генетическим алгоритмом. Результаты абляции показывают, что преимущества QPipe зависят от сохранения навыков генерации кода, знания задач, обратной связи по рецензированию и мультиагентной декомпозиции. Эти результаты подтверждают, что координация агентов может поддерживать генерацию исполняемых квантовых приложений для решения задач оптимизации тестов на основе реальных бенчмарков.
Гипермасштабируемые микросервисные системы стали стандартной инфраструктурой для крупных интернет-компаний. Эти системы состоят из множества слабо связанных микросервисов, которые развиваются независимо через постоянную разработку и развертывание. Такая сложность делает сбои неизбежными, что требует эффективного анализа коренных причин (RCA), чтобы помочь инженерам по надежности сайтов (SRE) быстро локализовать корневые сервисы и классифицировать типы сбоев. Однако существующие методы RCA часто сталкиваются с трудностями в адаптации к экстремальной динамичности и масштабам этих систем. В этой работе мы представляем KRCA, сквозную систему RCA, разработанную для гипермасштабируемых микросервисных систем. Для управления обширным пространством поиска KRCA использует многоступенчатый конвейер, который начинается с досконального анализа на уровне API для изоляции подозрительных сервисов. Затем он создает граф причинно-следственных связей на основе аномальных метрик, чтобы служить высокореколлным структурным приоритетом, прежде чем использовать память-расширенную многоагентную структуру для проверки причинности и генерации окончательного отчета о сбое. Объединив структурированные причинно-следственные ограничения с многоагентным рассуждением, KRCA обеспечивает баланс между диагностической точностью и требованиями к эффективности для использования в реальном времени. Экспериментальные результаты показывают, что KRCA достигает оценок AC@1 0.88 и 0.79 для локализации корневых сервисов и классификации типов сбоев, превосходя самые сильные базовые показатели по крайней мере на 31% в абсолютных приростах. KRCA была внедрена в производственной среде Kuaishou на протяжении более шести месяцев, что позволило сократить среднее время диагностики на 77.3%.
Задачи комбинаторной оптимизации (ЗКО) сложны, поскольку сертифицируемая дискретная структура порождает экспоненциальный поиск. Необходимо исследовать множество экспоненциально больших кандидатов для сертификации оптимальности; однако структурную состоятельность пути, упаковки или покрытия можно проверить за полиномиальное время, если она уже задана. В этом исследовании мы представляем Ценообразование Нейронных Сертификатов (ЦНС), которое использует эту асимметрию в рамках обучения без учителя. Нейронная сеть обучается предсказывать двойственные цены на уровне сертификата, в то время как структурный слой восстановления строит индуктивные первичные маржи. ЦНС можно рассматривать как амортизированное отделение: вместо перечисления нарушенных неравенств она обучается остаточным ценам, через которые их суммарный эффект входит в восстановление. Когда выполняется условие согласованности сертификата, восстановленная маржа является глобально состоятельной, а локальная теория показывает, что ошибки первого порядка в предсказанной цене вызывают только потери второго порядка в целевой функции. В трех классах ЗКО ЦНС либо значительно превосходит современные нейронные базовые модели, либо сопоставима с ними при меньших вычислительных затратах и показывает более сильную обобщаемость вне распределения.
Автономная роботизированная хирургия (АРХ) стала многообещающей целью в области биомедицинских технологий, дополнительно усовершенствованной миниатюризацией в направлении микророботизированной хирургии (μ-АРХ). Это уменьшение масштаба обещает малотравматичные, частично или полностью автоматизированные хирургические процедуры, способные сократить время восстановления пациентов, снизить медицинские расходы и предоставить ранее недоступные процедурные возможности. Данная перспектива подчеркивает конкретные достижения в АРХ, которые потенциально могут быть адаптированы для микромасштаба (μ-АРХ), организованные по пяти хирургическим направлениям: эндоваскулярная, эндолюмinale, лапароскопическая, офтальмологическая и ортопедическая. Мы исследуем как клинические потребности, так и технологические достижения в области хирургической робототехники и выделяем ключевые инновации, необходимые для прогресса в этих хирургических областях. Наш вклад уникален тем, что объединяет взгляды как хирургических экспертов, так и новаторов в области биомеханики, очерчивая дорожную карту для продвижения и окончательной интеграции автономной АРХ и μ-АРХ в основное хирургическое практику.
Языковые модели (ЯМ) все чаще используются для генерации идей для исследований, но существующие оценки в основном судят о каждой идее по таким критериям, как новизна, осуществимость или предпочтения экспертов. Вместо этого мы задаем вопрос: насколько далеко находятся текущие идеи, сгенерированные ЯМ, от идей человеческих исследователей? Чтобы охарактеризовать этот разрыв, мы разрабатываем рамки крупномасштабной оценки идей на основе высококачественных научных статей. Для каждой статьи мы проводим обратную разработку небольшого набора тесно связанных предыдущих работ, которые, вероятно, вдохновили ее основную идею. Затем ЯМ получают задание сгенерировать новую идею на основе набора заголовков и аннотаций статей. Мы представляем таксономию вкусов в исследованиях по двум осям, чтобы охарактеризовать каждую идею по ее паттерну возможностей и исследовательской парадигме, и используем ее для количественной оценки различий между человеческими и ЯМ-генерированными идеями. В различных наборах идей, сгенерированных разными ЯМ, мы наблюдаем постоянный распределительный разрыв: идеи ЯМ непропорционально сосредоточены вокруг возможностей синтеза и аналогий, в то время как распределение ссылок на человеческие работы намного шире и охватывает более разнообразные способы формирования разрывов и конструкций вкладов. Этот результат указывает на то, что мощные ЯМ могут производить ряд разумных идей, но этот диапазон остается уже и систематически смещенным по сравнению с исследовательским вкусом человека.