Искусственный интеллектarXivScience Morning3 мин чтенияpreprint
Оптимальное использование ресурсов для автономных лабораторных оркестраторов
Optimal Resource Utilization for Autonomous Laboratory Orchestrators
Карточка статьи
Рубрика
Искусственный интеллект
Источник
arXiv
Дата
01.07.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Аннотация
В автономных лабораториях агенты ИИ предлагают следующий пакет экспериментов. Однако планирование и выполнение этих задач с полным использованием доступных ресурсов - это совершенно другой вопрос. Это может быть сложно при работе с ограничениями реального оборудования, особенно когда имеется несколько инструментов с разной пропускной способностью и мощностью. В данной работе мы демонстрируем метод из двух этапов для решения задачи использования ресурсов нашей автономной платформы для синтеза металлоорганических каркасов. Сначала мы используем ограниченное программирование для нахождения оптимальных расписаний, которые минимизируют общее время, при этом удовлетворяя ограничениям и мощностям оборудования. Во-вторых, мы используем систему зависимостей статусов для каждой задачи, что позволяет надежно выполнять оптимальные расписания.
Краткое резюме
Статья описывает методику оптимизации использования ресурсов в автономных лабораториях для синтеза металлоорганических каркасов. Представленный подход включает два этапа: нахождение оптимального расписания с помощью ограниченного программирования и использование зависимостей статусов для эффективного выполнения задач. Это обеспечивает улучшение планирования и выполнения экспериментов с учетом реальных ограничений оборудования.
Практический вывод
Предложенный метод может значительно повысить эффективность работы автономных лабораторий, позволяя более рационально использовать доступные ресурсы в условиях ограничений реального оборудования.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Результаты исследования могут зависеть от конкретных характеристик используемого оборудования и могут не быть универсальными для всех типов автономных лабораторий.
Предыдущие работы по имитационному обучению на основе субоптимальных демонстраций обычно полагаются на сжатые сигналы супервизии, такие как оценки уверенности, баллы дискриминатора или веса важности. Эти скалярные сигналы имеют свои ограничения, так как не могут явно выразить промежуточные размышления о ходе выполнения задачи, режимах неудачи или корректирующих действиях. Мы предлагаем рамки имитационного обучения с критическим анализом языка, которое вместо этого использует естественный язык в качестве структурированного сигнала супервизии, избегая сворачивания выразительной обратной связи в скаляры. Наш метод сначала создает языковые метки на основе демонстраций, которые явно описывают текущий прогресс, идентифицируют субоптимальное поведение и предоставляют детализированные корректирующие рекомендации. Затем мы вводим функцию потерь критики языка, которая непосредственно обучает политики, используя эти структурированные сигналы, не сводя их к скалярам, и инстанцируем ее для как имитационного клонирования поведения, так и диффузионных политик, получая LC-BC и LC-DP. Мы также предоставляем теоретический результат, показывающий, что предложенная цель обеспечивает верхнюю границу разрыва производительности эксперта при стандартных предположениях. Эмпирически мы проводим оценку на различных задачах непрерывного управления, охватывающих навигацию, манипуляцию и игровую деятельность, где наши методы последовательно превосходят сильные базы имитационного обучения и оффлайн обучения с подкреплением. Эти результаты демонстрируют, что язык может служить мощной и структурированной формой супервизии для обучения устойчивым политикам на основе субоптимальных данных.
Обучение с подкреплением (RL) стало центральным компонентом постобучения крупных языковых моделей (LLMs), однако мало что известно о том, как адаптация RL распределена по слоям трансформера. Существующие подходы обычно обновляют все параметры модели равномерно, подразумевая, что каждый слой вносит схожий вклад в приросты, достигнутые в процессе постобучения с использованием RL. В данной работе мы ставим под сомнение это предположение через систематическое изучение обучения RL по слоям. Удивительно, но мы обнаружили, что обучение одного слоя трансформера может воспроизвести большую часть приростов, достигнутых при полном обучении с RL, а в некоторых случаях даже превзойти его. Чтобы количественно оценить это явление, мы вводим величину "вклад слоя", которая измеряет долю полного улучшения RL, достигнутого благодаря обучению слоя в изоляции. В рамках семи моделей, охватывающих две семейства моделей (Qwen3, Qwen2.5), три алгоритма RL (GRPO, GiGPO, Dr. GRPO) и несколько областей задач, включая математическое рассуждение, генерацию кода и агентное принятие решений, мы наблюдаем замечательно стабильный паттерн: приросты RL сосредоточены в небольшом подмножестве, а в большинстве случаев даже в одном слое трансформера. Более того, тот же структурный паттерн последовательно возникает: слои с высоким вкладом сосредоточены в середине стека трансформера, тогда как слои ближе к входу и выходу вносят значительно меньший вклад. Ранжирование слоев при этом остается сильно коррелированным между датасетами, задачами, семействами моделей и алгоритмами RL.
В данной статье рассматривается робастное оптимальное управление в реальном времени для неопределенных нелинейных систем, где линейные временные приближения (LTV) упрощают планирование, но требуют достоверных оценок ошибок линейзации (LEBs) для обеспечения соблюдения устойчивых ограничений. Мы разработали строгие, дифференцируемые оценки ошибок линейзации на GPU для LTV-аппроксимаций нелинейной динамики и динамики нейронных сетей (NN). Для аналитической динамики мы вводим оценки Гессиана на основе пути, которые являются более строгими, чем стандартные интервальные методы. Для динамики NN мы выводим сертифицированные LEB, используя аффинные релаксации, сгенерированные верификатором NN, и локальные коррекции Якобиана. Мы адаптировали парный LTV-составляющий решатель для робастного управления на уровне систем, чтобы он соответствовал этим LEB, расширив его на обработку правообратимых матриц возмущений и нецентрицированных наборов возмущений для строгого зонотопного распространения неопределенности. Наш метод, GPUSLS-LEO, позволяет онлайн-оптимизацию робастных обратных стратегий, учитывающих ошибку линейзации, обеспечивая надежные, формально проверенные достигнутые трубки. На комплексных нелинейных и NN динамиках с размерностями до 168 состояний наш метод может вычислять робастные стратегии управления на GPU со скоростью до 67 Гц, снижая время решения и консервативность по сравнению с базовыми решениями, сохраняя при этом формальные гарантии и производительность в реальном времени.
Формирование случаев (ФС) является ключевым навыком для терапевтов; однако создание качественных ФС требует значительного времени. Данное исследование направлено на демонстрацию того, что использование графа знаний на основе мета-аналитической литературы может повысить качество ФС. Были сформированы пять групп, включая 4 группы больших языковых моделей и 1 группу профессионалов, каждая из которых создала 25 ФС на основе 25 ситуаций. Контрольная группа с Claude (Sonnet 3.7; Anthropic) создала 25 ФС. Группа персонализации служила контрольной группой с дополнительными подсказками о персонализации. Группа графа знаний использовала большую языковую модель, которая сгенерировала 25 ФС, предоставленную с графом знаний по мета-анализу. Далее дополнительная персонализация составила группу графа знаний с персонализацией. Наконец, экспертная группа состояла из 25 ФС, созданных человеком-экспертом. Эти 125 ФС в общей сложности были оценены на общую качество (т.е. правильность, полнота, осуществимость и согласованность) с использованием 7-балльной шкалы и 18 основных элементов с бинарными оценками (0 или 1) другим экспертом. ФС также были качественно проанализированы. Группы графа знаний и графа знаний с персонализацией набрали значительно более высокие баллы, чем контрольная группа по таким показателям, как правильность, полнота и осуществимость. Экспертная группа значительно лучше набрала баллы за согласованность, чем группы сгенерированные машинами. Кроме того, не было значительных различий в оценках осуществимости среди групп графов знаний, графов знаний с персонализацией и экспертной группы. Качественная оценка показала, что ФС, созданные человеком, сужают текст до содержания, легко воспринимаемого клиентом, в то время как ФС, созданные машинами, более склонны включать выражения, которые неестественны для клиента. Эти результаты указывают на то, что предоставление графов знаний начинающим терапевтам увеличивает правильность, полноту и осуществимость ФС. Предоставление опытным терапевтам графов знаний также рекомендуется для улучшения качества их ФС и услуг в области психического здоровья.
Болезнь Альцгеймера (БА) — это дегенеративное неврологическое заболевание, характеризующееся потерей памяти, ухудшением когнитивных функций и уменьшением объема мозговой ткани. Обнаружить его на ранней стадии сложно из-за вариаций в прогрессировании заболевания и ограниченных возможностей методов нейровизуализации с единственной модальностью. Диагностика болезни Альцгеймера на основе магнитно-резонансной томографии (МРТ) предоставляет дополнительные структурные и функциональные данные, однако существующие методы глубокого обучения часто сталкиваются с проблемами несбалансированности данных, высокой вычислительной сложности и ограниченной обобщаемостью. Для устранения этих пробелов разработана структура извлечения признаков из МРТ на основе EfficientNet для классификации стадий болезни Альцгеймера. EfficientNet, оснащенный комбинированным масштабированием, слоями с разделением по глубине и компонентами сжатием и возбуждением, позволяет точно охарактеризовать корковые структуры и вариации во всем мозге, сохраняя при этом вычислительную эффективность. Извлеченные признаки классифицируются с помощью сети свёрточной многомасштабной внимательной сети на основе сжатия (C-MSACCN), которая объединяет механизмы внимания и стратегии сжатия для повышения точности и снижения сложности модели. Более того, улучшенный оптимизатор соседей клеток (ICNO) тонко настраивает гиперпараметры, находя баланс между исследованием и эксплуатацией для оптимального сходимости и устойчивости. С точностью 99,9%, точностью, полнотой и F1-мерой на наборах данных модель превосходит предыдущие работы. Валидация подтверждает согласованность, а методы визуализации выделяют области, связанные с заболеванием, для предоставления клинической информации.
Обучение с подкреплением с проверяемыми наградами (RLVR) стало мощной парадигмой для обучения языковых моделей (ЛМ) по задачам с четко определяемыми метриками успеха, такими как генерация кода и математическое рассуждение. Однако текущие методы RLVR оптимизируют лишь то, что можно объективно оценить, часто пренебрегая субъективными, непроверяемыми аспектами человеческих выводов, такими как стиль и структура. Это ограничение приводит к хорошо задокументированным проблемам, таким как потеря разнообразия, неестественно звучащие ответы и манипулирование наградами. Мы предлагаем противоборствующую систему генератора-дискриминатора, которая дополняет проверяемые награды обученным сигналом из человеческих демонстраций. Модель генератора обучается с использованием RL для максимизации как точности выполнения задач, так и противоборствующей награды, полученной от дискриминатора. Дискриминатор, обучаемый вместе с политикой генератора, учится отличать тексты, написанные человеком, от сгенерированных моделью. Дискриминатор служит обученной прокси для распределения человеческих выходов, предоставляя обратную связь по аспектам генерации, которые трудно формализовать в виде скалярных наград. В различных областях, включая исправление ошибок и открытую генерацию, наш подход последовательно улучшает непроверяемые свойства, сохраняя при этом приросты точности RLVR. В исправлении ошибок наш метод демонстрирует решения с значительно меньшим расстоянием правок по сравнению с базовыми методами RLVR, достигая аналогичных результатов. В генерации рассказов наш подход значительно увеличивает вероятность победы, создавая истории, которые являются разнообразными и более приближенными к человеческим. В простом тесте на манипулирование наградами наш метод почти полностью устраняет неправильное поведение модели, сохраняя при этом высокие оценки по стандартам. Вместе эти результаты показывают, что наш подход соединяет RL и SFT, предлагая масштабируемый путь к совместной оптимизации проверяемых и непроверяемых свойств задачи.