Искусственный интеллектarXivScience Morning3 мин чтенияpreprint
AutoMem: Автоматизированное изучение памяти как когнитивного навыка
AutoMem: Automated Learning of Memory as a Cognitive Skill
Карточка статьи
Рубрика
Искусственный интеллект
Источник
arXiv
Дата
01.07.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Аннотация
Экспертиза в памяти является приобретенным навыком: знание того, что кодировать, когда извлекать и как организовывать знания — это способность, известная в когнитивной науке как метапамять. Мы применяем эту перспективу к большим языковым моделям (LLMs), рассматривая управление памятью как обучаемый навык. Мы придаем операциям файловой системы статус основных действий памяти наряду с действиями по выполнению задач, позволяя модели самостоятельно решать, как управлять своей памятью. Этот навык памяти улучшается по двум направлениям: структура, которая его поддерживает (подсказки, схемы файлов, словарь действий), и умение модели его применять. Оба направления устойчивы к ручной оптимизации: эпизоды в долгосрочных задачах выполняются на протяжении тысяч шагов, и одна ошибка в памяти может оставаться незамеченной на долгое время, что делает человеческий обзор полных траекторий непрактичным. Мы представляем AutoMem, фреймворк, который автоматизирует оба направления. В первом цикле сильная LLM просматривает полные траектории агента и итеративно пересматривает структуру памяти, которая определяет, как агент взаимодействует со своими файлами памяти. Во втором цикле хорошие решения агента по памяти идентифицируются из множества эпизодов и используются в качестве обучающего сигнала для прямого улучшения мастерства модели в управлении памятью. В трех процедурно сгенерированных долгосрочных играх (Crafter, MiniHack и NetHack) оптимизация памяти отдельно — без изменения поведения модели в действиях по выполнению задач — улучшила производительность базового агента примерно в 2-4 раза, позволив 32B модели с открытыми весами конкурировать с передовыми системами, такими как Claude Opus 4.5 и Gemini 3.1 Pro Thinking. Наши результаты показывают, что управление памятью является независимо обучаемым навыком и представляет собой цель с высоким потенциалом, обеспечивающую значительные улучшения в долгосрочных задачах.
Краткое резюме
Статья представляет разработку AutoMem — фреймворка для автоматизации управления памятью в больших языковых моделях. Исследование показывает, что управление памятью является обучаемым навыком, что позволяет значительно повысить производительность моделей в долгосрочных задачах.
Практический вывод
Оптимизация управления памятью может значительно улучшить эффективность работы искусственных агентов в долговременных задачах, не требуя изменения их основной модели поведения.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Одним из ограничений исследования является зависимость от объемного объема данных, необходимых для эффективного обучения навыков памяти. Кроме того, влияние ошибок в памяти на долгосрочные результаты может оставаться незамеченным, что затрудняет оценку эффективности управления памятью в сложных системах.
Текущие исследования в области роботизированной сборки мебели в основном сосредоточены на игрушечных масштабах или манипуляциях с одной рукой. Мы представляем FurnitureVLA, первое систематическое исследование бимануальной сборки мебели в реальном масштабе с использованием моделей видения-языка-действия (VLA). Мы формализуем задачу, разрабатываем масштабируемый симуляционный конвейер для генерации и оценки экспертных данных и создаем систему телеприсутствия в виртуальной реальности для управления бимануально одним оператором с целью сбора качественных демонстраций из реального мира. Чтобы справиться с экстремально долгосрочной сборкой, которая включает до 7 подсостояний и 1550 контрольных шагов, мы предлагаем улучшенную модель VLA, донастроенную на семантически обоснованные подсостояния, которая совместно предсказывает действия и непрерывный сигнал прогресса, позволяя автоматически переходить между подсостояниями и снижая накопление ошибок во время вывода. Мы также исследуем факторы проектирования восприятия и управления, которые критически влияют на точность в сборке в реальном масштабе. FurnitureVLA улучшает средний уровень успеха симуляции с 48% до 80% по сравнению с базовыми показателями для трех типов мебели, с дополнительным приростом в 21% благодаря изучению факторов проектирования. Мы валидируем на реальной платформе Kinova Gen3 с только 16% снижением на наиболее сложной задаче.
Искусственный интеллект (ИИ) стремительно трансформирует системы здравоохранения и клиническую практику, увеличивая необходимость подготовки будущих врачей к эффективному взаимодействию с технологиями ИИ в клинических условиях. Несмотря на возрастающий интерес к интеграции ИИ в медицинское образование, эмпирические данные о готовности студентов медицины использовать ИИ остаются ограниченными. Настоящее исследование направлено на оценку готовности к медицинскому ИИ среди студентов медицинских вузов Кореи и изучение факторов, связанных с этой готовностью. Было проведено поперечное исследование среди студентов, обучающихся в шестилетней медицинской программе в университете Кореи. Всего в исследовании участвовали 204 студента. Готовность к медицинскому ИИ оценивалась с помощью Шкалы готовности к медицинскому ИИ для студентов (MAIRS-MS), которая охватывает четыре области: когнитивная, способность, видение и этика. Описательная статистика, независимые t-тесты и корреляционный анализ Пирсона проводились с использованием SPSS версии 27. Средний балл готовности к медицинскому ИИ составил 4,19 по 7-балльной шкале Лайкерта, что указывает на средний уровень готовности к медицинскому ИИ. Среди подшкал наивысший средний балл был у этики (4,69), за ним следовали видение (4,44), способность (4,18) и когнитивная (3,92). Частота использования ИИ была значительно связана с готовностью к медицинскому ИИ, в то время как ежедневная продолжительность использования ИИ не имела значительного отношения. Значительных различий по полу не было обнаружено. Когда студенты были разделены на группы с низким (предварительно медицинские годы 1-2) и высоким (медицинские годы 1-4) уровнем, группа с высоким уровнем показала значительно более высокие баллы только в подшкале способности. Результаты показывают, что студенты медицины еще не готовы достаточно использовать технологии ИИ в клинической практике, особенно в отношении знаний и практических навыков, связанных с ИИ. Эти результаты подчеркивают необходимость структурированного и долгосрочного образования по ИИ в медицинских учебных планах для лучшей подготовки будущих врачей к интегрированным в ИИ условиям здравоохранения.
Когнитивные нарушения, связанные с раком (КНСР), стали заметным долгосрочным последствием для выживших после рака, особенно среди тех, кто получает химиотерапию, радиотерапию или таргетные методы лечения. Несмотря на достижения в лечения рака, КНСР все еще нарушает качество жизни пациентов, повседневную деятельность и трудоспособность, а также эмоциональное благополучие. Данный обзор предоставляет обобщение существующей информации о нейробиологических основах КНСР, включая нейровоспаление, нарушенную нейропластичность, окислительный стресс и опухолевые факторы. Он анализирует методы диагностики — от когнитивного скрининга до высокоуровневой нейровизуализации, а также рассматривает интервенции, основанные на доказательствах, которые играют значительную роль в предоставлении высокодисциплинированного, персонализированного ухода. Действующие ограничения для продвижения интервенций по КНСР на основе машинного обучения включают постоянные препятствия, недостаток долгосрочных испытаний и трудности с доступом к данным и достижением интерпретируемости, среди прочего. В данном обзоре также определяются другие важные факторы риска, а также оценивается производительность различных предсказательных моделей с точки зрения точности, способности к обобщению и клинической полезности. Более того, он освещает проблемы валидации этих моделей и биомаркеров в различных популяциях, а также необходимость дальнейших исследований для повышения их валидности и возможности создания персонализированных интервенций.
Предыдущие работы по имитационному обучению на основе субоптимальных демонстраций обычно полагаются на сжатые сигналы супервизии, такие как оценки уверенности, баллы дискриминатора или веса важности. Эти скалярные сигналы имеют свои ограничения, так как не могут явно выразить промежуточные размышления о ходе выполнения задачи, режимах неудачи или корректирующих действиях. Мы предлагаем рамки имитационного обучения с критическим анализом языка, которое вместо этого использует естественный язык в качестве структурированного сигнала супервизии, избегая сворачивания выразительной обратной связи в скаляры. Наш метод сначала создает языковые метки на основе демонстраций, которые явно описывают текущий прогресс, идентифицируют субоптимальное поведение и предоставляют детализированные корректирующие рекомендации. Затем мы вводим функцию потерь критики языка, которая непосредственно обучает политики, используя эти структурированные сигналы, не сводя их к скалярам, и инстанцируем ее для как имитационного клонирования поведения, так и диффузионных политик, получая LC-BC и LC-DP. Мы также предоставляем теоретический результат, показывающий, что предложенная цель обеспечивает верхнюю границу разрыва производительности эксперта при стандартных предположениях. Эмпирически мы проводим оценку на различных задачах непрерывного управления, охватывающих навигацию, манипуляцию и игровую деятельность, где наши методы последовательно превосходят сильные базы имитационного обучения и оффлайн обучения с подкреплением. Эти результаты демонстрируют, что язык может служить мощной и структурированной формой супервизии для обучения устойчивым политикам на основе субоптимальных данных.
Квантовые вычисления стали многообещающей вычислительной парадигмой для машинного обучения (МЛ), с потенциалом предложить вычислительные преимущества по сравнению с классическими подходами. На данный момент доказательства, подтверждающие эффективность и преимущества квантовых моделей машинного обучения (QML) по отношению к классическим моделям, недостаточны. Чтобы заполнить этот пробел, в данной работе представлено эмпирическое исследование производительности моделей QML и их классических аналогов. Мы сравниваем семь пар моделей, охватывающих контролируемое обучение и обучение с подкреплением. Наши результаты показывают, что оцениваемые модели квантового машинного обучения пока не превосходят классические эталоны по общей точности прогнозирования, стабильности политики или времени обучения. Тем не менее, QML остается многообещающим подходом для фильтрации шума и контроля ложноположительных срабатываний. Результаты нашего исследования подводят итоги проблемам, с которыми сталкивается квантовое машинное обучение в различных аппаратных средах, эффективности обучения и стабильности сходимости, создавая основу для исследований по устойчивости и оптимизации параметров QML. Эта работа доступна по адресу https://github.com/Z-537-437/QML.
Метапознание является критически важной составляющей интеллекта, описывающей способность контролировать и регулировать собственные когнитивные процессы. Тем не менее, большие языковые модели (LLMs) демонстрируют системные недостатки в ключевых метапознавательных функциях: они создают неправильные (галлюцинирующие) ответы с высокой уверенностью, не осознают границы своих знаний и неправильно представляют свою внутреннюю неопределенность, что подрывает доверие и надежность. Учитывая, что мониторинг производительности задач и адаптация поведения в соответствии с этим являются центральными для метапознания, мы предполагаем, что модели, способные точно оценивать свою собственную производительность, лучше подготовлены для ее улучшения. Мы реализуем эту идею через два новых механизма: обучение с подкреплением с метапознавательной обратной связью (RLMF) – парадигму, позволяющую улучшать ранжирование завершений во время оптимизации предпочтений на основе качества самосуждений модели о производительности, и выбор метапознавательных данных, который использует аналогичные самосуждения для выявления ценных обучающих примеров, превосходя наивное активное обучение. Мы применяем эти инновации к проблеме надежной калибровки (FC), которая сама по себе является принципиально метапознавательной задачей: цель заключается в согласовании выраженной и внутренней неопределенности, что сложно даже для передовых LLM. Мы принимаем декомпозированный подход в два этапа: сначала используем эти методы для калибровки надежности самооценок моделей, а затем отображаем на естественную, адаптируемую по контексту языковую неопределенность через целевое редактирование выходных данных. Обширные эксперименты показывают, что RLMF достигает обобщаемой, современной надежной калибровки на различных задачах при сохранении точности. Более того, RLMF превосходит стандартное обучение с подкреплением на 63%, при этом улучшая способность моделей оценивать и выражать собственные пределы возможностей. Это ставит RLMF в качестве многообещающей парадигмы для повышения метапознавательных способностей LLM с целью улучшения возможностей моделирования и соответствия, а также предполагает, что метапознавательная производительность является эффективным сигналом обучения с подкреплением для преодоления ограничений ранее используемых методов внутренней обратной связи.