Искусственный интеллектarXivScience Morning3 мин чтенияpreprint

Параллельные линейные оценки ошибок линейзации на GPU для робастного оптимального управления в реальном времени для нелинейной динамики и нейронных сетей

GPU-Parallel Linearization Error Bounds for Real-Time Robust Optimal Control of Nonlinear and Neural Network Dynamics

Рубрика
Искусственный интеллект
Источник
arXiv
Дата
01.07.2026
Автор
Science Morning
Время чтения
3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Искусственный интеллект

Аннотация

В данной статье рассматривается робастное оптимальное управление в реальном времени для неопределенных нелинейных систем, где линейные временные приближения (LTV) упрощают планирование, но требуют достоверных оценок ошибок линейзации (LEBs) для обеспечения соблюдения устойчивых ограничений. Мы разработали строгие, дифференцируемые оценки ошибок линейзации на GPU для LTV-аппроксимаций нелинейной динамики и динамики нейронных сетей (NN). Для аналитической динамики мы вводим оценки Гессиана на основе пути, которые являются более строгими, чем стандартные интервальные методы. Для динамики NN мы выводим сертифицированные LEB, используя аффинные релаксации, сгенерированные верификатором NN, и локальные коррекции Якобиана. Мы адаптировали парный LTV-составляющий решатель для робастного управления на уровне систем, чтобы он соответствовал этим LEB, расширив его на обработку правообратимых матриц возмущений и нецентрицированных наборов возмущений для строгого зонотопного распространения неопределенности. Наш метод, GPUSLS-LEO, позволяет онлайн-оптимизацию робастных обратных стратегий, учитывающих ошибку линейзации, обеспечивая надежные, формально проверенные достигнутые трубки. На комплексных нелинейных и NN динамиках с размерностями до 168 состояний наш метод может вычислять робастные стратегии управления на GPU со скоростью до 67 Гц, снижая время решения и консервативность по сравнению с базовыми решениями, сохраняя при этом формальные гарантии и производительность в реальном времени.

Краткое резюме

Статья представляет новый подход к оптимальному управлению нелинейными и нейронными системами, предлагая параллельные алгоритмы на GPU для оценки ошибок линейзации. Разработанный метод позволяет эффективно планировать управление в реальном времени, сохраняя при этом строгие гарантии надежности.

Практический вывод

Предложенный метод GPUSLS-LEO значительно ускоряет разработку робастных стратегий управления для сложных систем, обеспечивая высокую скорость вычислений при соблюдении всех необходимых гарантий.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. Исследование ограничено определенными предпосылками относительно характера возмущений и модели динамики, что может повлиять на обобщаемость метода для всех типов нелинейных систем.

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Искусственный интеллект
Искусственный интеллект
72%

Имитационное обучение с критикой языка на основе субоптимальных демонстраций

Предыдущие работы по имитационному обучению на основе субоптимальных демонстраций обычно полагаются на сжатые сигналы супервизии, такие как оценки уверенности, баллы дискриминатора или веса важности. Эти скалярные сигналы имеют свои ограничения, так как не могут явно выразить промежуточные размышления о ходе выполнения задачи, режимах неудачи или корректирующих действиях. Мы предлагаем рамки имитационного обучения с критическим анализом языка, которое вместо этого использует естественный язык в качестве структурированного сигнала супервизии, избегая сворачивания выразительной обратной связи в скаляры. Наш метод сначала создает языковые метки на основе демонстраций, которые явно описывают текущий прогресс, идентифицируют субоптимальное поведение и предоставляют детализированные корректирующие рекомендации. Затем мы вводим функцию потерь критики языка, которая непосредственно обучает политики, используя эти структурированные сигналы, не сводя их к скалярам, и инстанцируем ее для как имитационного клонирования поведения, так и диффузионных политик, получая LC-BC и LC-DP. Мы также предоставляем теоретический результат, показывающий, что предложенная цель обеспечивает верхнюю границу разрыва производительности эксперта при стандартных предположениях. Эмпирически мы проводим оценку на различных задачах непрерывного управления, охватывающих навигацию, манипуляцию и игровую деятельность, где наши методы последовательно превосходят сильные базы имитационного обучения и оффлайн обучения с подкреплением. Эти результаты демонстрируют, что язык может служить мощной и структурированной формой супервизии для обучения устойчивым политикам на основе субоптимальных данных.

Искусственный интеллект
Искусственный интеллект
72%

Оптимальное использование ресурсов для автономных лабораторных оркестраторов

В автономных лабораториях агенты ИИ предлагают следующий пакет экспериментов. Однако планирование и выполнение этих задач с полным использованием доступных ресурсов - это совершенно другой вопрос. Это может быть сложно при работе с ограничениями реального оборудования, особенно когда имеется несколько инструментов с разной пропускной способностью и мощностью. В данной работе мы демонстрируем метод из двух этапов для решения задачи использования ресурсов нашей автономной платформы для синтеза металлоорганических каркасов. Сначала мы используем ограниченное программирование для нахождения оптимальных расписаний, которые минимизируют общее время, при этом удовлетворяя ограничениям и мощностям оборудования. Во-вторых, мы используем систему зависимостей статусов для каждой задачи, что позволяет надежно выполнять оптимальные расписания.

Искусственный интеллект
Искусственный интеллект
72%

Ценообразование нейронных сертификатов для задач комбинаторной оптимизации

Задачи комбинаторной оптимизации (ЗКО) сложны, поскольку сертифицируемая дискретная структура порождает экспоненциальный поиск. Необходимо исследовать множество экспоненциально больших кандидатов для сертификации оптимальности; однако структурную состоятельность пути, упаковки или покрытия можно проверить за полиномиальное время, если она уже задана. В этом исследовании мы представляем Ценообразование Нейронных Сертификатов (ЦНС), которое использует эту асимметрию в рамках обучения без учителя. Нейронная сеть обучается предсказывать двойственные цены на уровне сертификата, в то время как структурный слой восстановления строит индуктивные первичные маржи. ЦНС можно рассматривать как амортизированное отделение: вместо перечисления нарушенных неравенств она обучается остаточным ценам, через которые их суммарный эффект входит в восстановление. Когда выполняется условие согласованности сертификата, восстановленная маржа является глобально состоятельной, а локальная теория показывает, что ошибки первого порядка в предсказанной цене вызывают только потери второго порядка в целевой функции. В трех классах ЗКО ЦНС либо значительно превосходит современные нейронные базовые модели, либо сопоставима с ними при меньших вычислительных затратах и показывает более сильную обобщаемость вне распределения.

Искусственный интеллект
Искусственный интеллект
72%

QuasiMoTTo: Квази-Монте-Карло и масштабирование во время тестирования

Масштабирование вычислений во время вывода, путём генерации множества параллельных попыток для каждой задачи, является дорогостоящим, но надежным способом улучшения возможностей языковых моделей. По умолчанию эти попытки создаются независимо, что приводит к потере вычислений из-за дублирующих решений. Это desperdasto кажется неизбежным. В конечном счёте, независимость делает параллельную выборку тривиально масштабируемой. Однако этот компромисс не является фундаментальным: существует богатое пространство проектирования выборщиков, которые генерируют коррелированные, но точные выборки полностью в параллельном режиме. Мы исследуем это пространство проектирования как способ повышения эффективности выборки при масштабировании вычислений вывода и обучения с подкреплением (RL). Конкретно, мы представляем QuasiMoTTo, который использует коррелированные выборки в качестве замены для выборок i.i.d. Чтобы сгенерировать эти выборки, QuasiMoTTo использует репараметризацию автогрессионной выборки в качестве выборки обратной кумулятивной функции распределения и выбирает основное равномерное распределение с помощью квази-Монте-Карло (QMC); поскольку QMC распределяет равномерные значения более равномерно, чем i.i.d., полученные выборки охватывают выходное пространство с гораздо меньшей дубликацией. Несмотря на то, что выборка коррелирована, каждая выборка распределена маргинально в соответствии с языковой моделью, поэтому мы можем использовать пакет для обучения с использованием градиента политики. Наша эмпирическая работа сосредоточена на понимании того, насколько эффективно QuasiMoTTo может преобразовывать вычисления в производительность. Для оценки коррелированных выборщиков, зависимость которых нарушает стандартные оценщики pass@k, мы сначала разрабатываем unbiased bootstrap оценку. На четырёх бенчмарках рассуждений QuasiMoTTo достигает точности pass@k, аналогичной i.i.d., используя на 25-47% меньшее число выборок. Удивительно, что QuasiMoTTo часто достигает верхней границы на pass@k, которая сохраняется для любого выборщика, сохраняющего маргинальность. Мы также применяем QuasiMoTTo к обучению с градиентом политики RL (GRPO), где он соответствует производительности i.i.d. с 50% меньшим числом шагов обучения. Эти достижения связаны с большей охватностью, что приводит к сильному сигналу обучения на пакет.

Искусственный интеллект
Искусственный интеллект
72%

Когда большие языковые модели невнимательно читают таблицы: измерение и снижение ошибок ссылок на данные

Хотя большие языковые модели (БЯМ) хорошо справляются с задачами, связанными с таблицами, они все же совершают ошибки при ссылках на данные (ЭСД), то есть неправильно цитируют или опускают значения из таблиц, несмотря на понимание их структуры. Кроме того, что ошибки при ссылках на данные влияют на точность финальных ответов, они прямо ставят под сомнение корректность и надежность промежуточных шагов рассуждения. Однако предыдущие исследования предлагали лишь ограниченные и мелкомасштабные анализы. В данной работе мы представляем первую систематическую оценку ошибок ссылок на табличные данные в различных моделях и задачах. Наши результаты показывают, что ЭСД встречаются во всех протестированных моделях (от 1.7 до 20 миллиардов параметров). Кроме того, мы демонстрируем, что внедрение ссылок на данные в качестве критика значительно улучшает точность ответов на 12.0% с помощью фильтрации на основе критика и выборки для отклонения. В заключение, мы обучили легкую модель критика с 4 миллиардами параметров, которая достигает средней F1 оценки 78.2% в обнаружении как внутрираспределенных, так и внераспределенных ЭСД и эффективно способствует выводу для более крупных моделей.

Искусственный интеллект
Искусственный интеллект
72%

SemRF: Семантическая опорная рамка для динамики остаточного потока в языковых моделях

Анализ остаточного потока исследует, как вычисления языковой модели развиваются на разных уровнях, но промежуточное декодирование требует сопоставимых координат считывания на различных слоях. Если якорные встраивания и считывания контекстов не совпадают по выбранному диапазону, то видимое движение может отражать смещение измерений, а не вычислений. Мы вводим "Семантические опорные рамки" (SemRF), основанную на якорях формулировку, которая разделяет семантическое измерение и остаточную динамику. SemRF фиксирует якоря и измеряет состояния относительно них. Связание псевдообратных операций обеспечивает точную синхронизацию; при ограниченной би-обратимости SemRF дает стабильные семантические базисные координаты, границы искажения и почти единичные изменения. С фиксированным каркасом остаточные вычисления становятся семантической траекторией по глубине. Якоря задают семантическую диаграмму Вороноя: расстояние или такие показатели, как логиты, назначают каждому слою грубую ячейку, в то время как координаты сохраняют движения и границы внутри ячейки. Мы определяем шаги по слоям, профили вклада и диагностику дисбаланса, а затем используем след Вороноя для определения расслабленной трубки. Канонический след - это путь с минимальным действием внутри этой трубки; когда он не пустой с положительным квадратичным весом, он уникален и подчиняется дискретному уравнению сплайн. Избыточное действие контролирует шаг, кривизну и несоответствие профиля. Низкая кривизна означает кусочно-линейную сжимаемость и плотность локальных знаний: меньшая сложность следа означает меньше семантических узлов. Через отображение параметров на траекторию это дает условную связь с эффективностью параметров: среди допустимых настроек, соответствующих данным, следы с меньшим действием и меньшей сложностью используют меньше семантических степеней свободы. Эти гарантии требуют контролируемой ошибки интерфейса и малого остатка проекции при явных ограничениях трубки.