Искусственный интеллектarXivScience Morning3 мин чтенияpreprint

AdaJEPA: Адаптивная модель скрытого мира

AdaJEPA: An Adaptive Latent World Model

Рубрика
Искусственный интеллект
Источник
arXiv
Дата
30.06.2026
Автор
Science Morning
Время чтения
3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Искусственный интеллект

Аннотация

Модели скрытого мира позволяют планировать на основе многомерных наблюдений, предсказывая будущие состояния в компактном скрытом пространстве. Однако, как правило, эти модели остаются неизменными во время тестирования: когда их предсказания становятся неточными, планирование может потерпеть неудачу, особенно при изменении распределения в процессе тестирования. Для решения этой проблемы мы предлагаем AdaJEPA, адаптивную модель скрытого мира, которая осуществляет адаптацию во время тестирования в рамках замкнутого цикла управления, основанного на предсказаниях модели (MPC). После обучения AdaJEPA планирует и выполняет первую часть действий, использует наблюдаемое изменение состояния как сигнал для саморегулируемой адаптации и пересматривает план с обновленной моделью. Это обновление в замкнутом цикле постоянно перекалибрует модель мира без дополнительных демонстраций экспертов. В различных задачах достижения целей AdaJEPA значительно улучшает успех планирования, требуя всего одну итерацию градиентного шага на этапе пересмотра плана MPC.

Краткое резюме

AdaJEPA представляет собой адаптивную модель скрытого мира, которая позволяет эффективно планировать действия в условиях изменяющихся условий, путем саморегулировки на основе наблюдаемых состояний без необходимости в экспертных данных.

Практический вывод

AdaJEPA демонстрирует, что методы саморегулируемой адаптации в замкнутом цикле могут значительно улучшить планирование в реальных задачах, даже при ограниченных ресурсах для адаптации.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. Одним из ограничений AdaJEPA является необходимость наличия некоторого количества наблюдений для успешной адаптации, что может быть проблемой в средах с ограниченной обратной связью.

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Искусственный интеллект
Искусственный интеллект
87%

Infoxmed2.0-27B: Тюнинг инструкций, согласование предпочтений и обучение модели награды на основе GRPO для медицинских LLM

Абстракт. Большие языковые модели (LLMs) продемонстрировали выдающиеся возможности в общих областях, однако их применение в специализированных медицинских контекстах требует строгой адаптации к предметной области. Мы представляем Infoxmed2.0-27B, медицинскую фундаментальную модель, построенную на основе Qwen3.5-27B через комплексный многоступенчатый постобучающий процесс: (1) синтез проприетарных медицинских данных из базы данных MySQL с организацией MedicalCategoryTree, валидация командой врачей с докторскими степенями, семантическая дедупликация на основе китайского RoBERTa и языковая доработка с помощью API; (2) супервайзинг — тонкая настройка Qwen3.5-27B с помощью LoRA (r = 8, = 32) с использованием MS-Swift, что приводит к итерациям Infoxmed2.0.0[->]2.0.2[->]2.0.4; (3) оптимизация прямых предпочтений (DPO) на 6,283 отобранных парах медицинских предпочтений с использованием потерь DPO-RPO ({beta} = 0.3, RPO = 0.1) через восемь прогрессивных итераций обучения (v0-v7); и (4) параллельное обучение модели вознаграждений, основанное на методах групповой относительной политики (GRPO), с внутренними правилами вознаграждений и внешними сигналами DeepSeek. Комплексные оценки в рамках единой структуры LLM-as-Judge с GPT-5.4 демонстрируют 77.0% точности (средний балл качества +7.18) на MedMCQA и +2.59 на HLE, при этом прогресс по этапам составляет +6.69 (базовый) до +7.06 (SFT) до +7.18 (финальный).

Искусственный интеллект
Искусственный интеллект
87%

Динамическое представление графов для обучения на основе данных в стадировании болезни Хантингтона: оценка по сравнению с существующими методами эмбеддинга и моделями пространственного состояния

Болезнь Хантингтона (БХ) имеет гетерогенное нейродегенеративное течение, при котором моторные, когнитивные и функциональные симптомы развиваются по-разному у различных людей. Такое нетипичное течение осложняет определение дискретных стадий болезни, что затрудняет понимание траекторий заболевания, timely pa- tient care и разработку терапии. В результате существующие клинические системы стадирования в значительной степени полагаются на критерии, определяемые клиницистами, специфичные для области, и фиксированные границы клинического измерения для назначения стадии, что снижает объективность и часто приводит к перекрытию клинических измерений между стадиями. Хотя методы машинного обучения могут помочь, существующие подходы не могут полностью уловить сложные временные зависимости внутри и между пациентами. Мы предлагаем URL-STFN, модель динамического представления графов, которая кодирует как меж-, так и внутри-пациентные временные паттерны на основе долгосрочных клинических измерений. Затем мы оцениваем стадии заболевания, образованные через кластеризацию и анализ стабильности латентных представлений URL-STFN, и сравниваем их с представлениями, полученными с помощью традиционных методов эмбеддинга. Мы также проводим бенчмаркинг этих стадий, основанных на кластеризации, по сравнению с состояниями, полученными из традиционных временных моделей, включая DHMM. Мы предполагаем, что кластеризация латентных представлений URL-STFN позволяет идентифицировать стадии БХ с уменьшением перекрытия клинических измерений. Предложенная структура оценивается с использованием 1,477 клинических визитов из набора данных Enroll-HD, крупной продольной когорты с повторными клиническими оценками. Для стадирования мы использовали 44 клинических измерения, охватывающих моторную, когнитивную и функциональную области. URL-STFN определяет клинически значимые стадии БХ, которые соответствуют установленному прогрессированию заболевания, одновременно уменьшая перекрытие значений клинических признаков по сравнению с подходами, основанными на DHMM, и клиническими стадиями. Эти выводы подчеркивают потенциал модели обучения представления на основе динамических графов и фреймворка кластеризации для поддержки более объективного, основанного на данных и точного стадирования БХ.

Искусственный интеллект
Искусственный интеллект
82%

FurnitureVLA: Обучение долгосрочной бимануальной сборке мебели с помощью модели видение-язык-действие

Текущие исследования в области роботизированной сборки мебели в основном сосредоточены на игрушечных масштабах или манипуляциях с одной рукой. Мы представляем FurnitureVLA, первое систематическое исследование бимануальной сборки мебели в реальном масштабе с использованием моделей видения-языка-действия (VLA). Мы формализуем задачу, разрабатываем масштабируемый симуляционный конвейер для генерации и оценки экспертных данных и создаем систему телеприсутствия в виртуальной реальности для управления бимануально одним оператором с целью сбора качественных демонстраций из реального мира. Чтобы справиться с экстремально долгосрочной сборкой, которая включает до 7 подсостояний и 1550 контрольных шагов, мы предлагаем улучшенную модель VLA, донастроенную на семантически обоснованные подсостояния, которая совместно предсказывает действия и непрерывный сигнал прогресса, позволяя автоматически переходить между подсостояниями и снижая накопление ошибок во время вывода. Мы также исследуем факторы проектирования восприятия и управления, которые критически влияют на точность в сборке в реальном масштабе. FurnitureVLA улучшает средний уровень успеха симуляции с 48% до 80% по сравнению с базовыми показателями для трех типов мебели, с дополнительным приростом в 21% благодаря изучению факторов проектирования. Мы валидируем на реальной платформе Kinova Gen3 с только 16% снижением на наиболее сложной задаче.

Искусственный интеллект
Искусственный интеллект
79%

Разработка и валидация модели глубокого обучения двойного канала для прогнозирования острого повреждения почек в непрерывном режиме у критически больных пациентов.

Цель данного исследования заключалась в разработке и внешней валидации модели прогнозирования риска острого повреждения почек (ОПП) на 48 часов в реальном времени для критически больных пациентов с использованием модели глубокого обучения двойного канала (DC-AKI). Модель была разработана на основе электронных медицинских записей 28,099 пациентов в медицинском центре Beth Israel Deaconess и внешне валидирована на двух независимых когорт, состоящих из 3,108 пациентов из базы данных eICU и 2,808 пациентов из больницы народного госпиталя провинции Чжэцзян. Тридцать одна изменяющаяся во времени характеристика обновлялась каждые 6 часов. Архитектура модели DC-AKI интегрировала сети BiGRU, свёрточные слои и механизмы внимания для захвата мультишкалярных временных зависимостей. Модель достигла значений площади под кривой операционных характеристик (AUC) 0,720 (95% ДИ, 0,714-0,728) при внутренней валидации и 0,577 (95% ДИ, 0,570-0,583) и 0,798 (95% ДИ, 0,795-0,799) в двух внешних когорт. Анализ интерпретируемости SHAP выявил ключевые клинические предикторы и индивидуальные траектории риска. В заключение, DC-AKI продемонстрировала хорошую предсказательную способность в развивающей когортной популяции и на одном сайте внешней валидации, хотя производительность существенно варьировала в зависимости от учреждений. Необходимо дальнейшая валидация и локальная калибровка для поддержки её клинического применения.

Искусственный интеллект
Искусственный интеллект
79%

WUSTCA: улучшенная классификация радиочастотных сигналов БПЛА с использованием вейвлет-преобразования и механизмов внимания STCA.

Беспилотные летательные аппараты (БПЛА) играют важную роль в различных гражданских и коммерческих приложениях, что требует точной классификации их радиочастотных (РЧ) сигналов. Современные подходы на основе глубокого обучения сталкиваются с высокой вычислительной сложностью, чувствительностью к шуму и ограниченной точностью. В данной статье предлагается новая структура классификации сигналов БПЛА, которая сочетает в себе вейвлетное извлечение признаков с иерархической архитектурой U-Net, дополненной механизмами внимания с раздельным временем (STCA) и остаточной связанностью. Модель WUSTCA эффективно классифицирует сигналы БПЛА и их контроллеров, достигая средней точности классификации 96,6% для БПЛА и 95,83% для контроллеров БПЛА на наборе данных CardRF. Решая такие проблемы, как помехи шума и разнообразие сигналов, данная работа предоставляет надежное и эффективное решение для классификации сигналов БПЛА, открывая путь для приложений в реальном времени в сложных условиях.

Искусственный интеллект
Искусственный интеллект
77%

Выявление скрытых предвзятостей в языковых моделях с помощью дистилляции

Языковые модели, используемые в ситуациях с высокими ставками, могут потенциально благоприятствовать определенным субъектам, брендам или точкам зрения, влияя на решения пользователей в масштабах. Такие предвзятости могут быть внесены любым участником цепочки поставок модели и представляют наибольшую опасность, когда модель проявляет свои предпочтения только по соответствующей теме, оставаясь при этом идентичной своей незамененной базе по всем другим входным данным. Недавние исследования показали, что эти предвзятости могут передаваться через дистилляцию контекста на семантически не связанных данных, сигнал при этом полностью содержится в распределении мягких логитов и остается невидимым для текстовой инспекции. Однако защитник сталкивается с фундаментальной асимметрией: не зная темы предвзятости, ни один метод обнаружения не может надежно выявить скрытую предвзятость, независимо от того, анализирует ли он сгенерированный текст, внутренние представления или веса модели. В этой работе мы представляем метод Distill to Detect (D2D), который выявляет скрытые предвзятости, дистиллируя смещение распределения между подозреваемой моделью и ее базой в картридж (адаптер префикса KV-кэша), концентрируя доминирующее расхождение и усиливая сигнал предвзятости в сгенерированном тексте. Мы показываем, что D2D успешно усиливает скрытые предвзятости скрытых моделей в такой степени, что они могут быть надежно выявлены по нескольким типам предвзятости. Мы также предлагаем теоретическую основу, которая объясняет эффективность D2D через призму проекции логит-распределения, взвешенного по Фишеру, поддерживаемую эмпирическими наблюдениями. Превращая узкое место в возможности адаптеров префиксной настройки в инструмент обнаружения, D2D предоставляет практическую основу для аудита скрытых поведений в развернутых языковых моделях.