Искусственный интеллектarXivScience Morning3 мин чтенияpreprint

FedLAB: Прослеживаемые семантические кодбуки для федеративного многомодального обучения на графах

FedLAB: Traceable Semantic Codebooks for Federated Multimodal Graph Foundation Learning

Рубрика
Искусственный интеллект
Источник
arXiv
Дата
30.06.2026
Автор
Science Morning
Время чтения
3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Искусственный интеллект

Аннотация

Модели оснований многомодальных графов стремятся извлекать повторно используемые знания из графов, обогащенных текстом, изображениями, атрибутами и реляционной топологией, тем самым поддерживая разнообразные задачи, связанные как с графами, так и с модальностями. Однако на практике такие многомодальные графы часто распределены между децентрализованными клиентами, где сырые данные и локальные структуры не могут быть централизованно обменяны из-за ограничений по конфиденциальности. Это побуждает к созданию федеративного многомодального обучения на графах, которое требует не только возможности переноса представлений, но и внутренней семантической прослеживаемости при строгой изоляции данных. Существующие методы обычно обмениваются или хранят знания через параметры, прототипы, встраивания или компактные кодбуки, которые поддерживают оптимизацию и перенос, но не раскрывают, как модальные доказательства, семантика узлов и контекст топологии совместно поддерживают предсказания. Чтобы преодолеть этот разрыв, мы предлагаем FedLAB, структуру прослеживаемых семантических кодбуков, которая организует знания о многомодальных графах в типизированные иерархические кодбуки для модальных доказательств, семантики узлов и контекста топологии. FedLAB дополнительно уточняет эти семантические единицы через предобучение на федеративной семантической барицентре, сохраняя при этом сырые многомодальные данные и структуры графов локальными. Обширные эксперименты на 10 тестовых наборах и 6 задачах конечного использования показывают, что FedLAB превосходит современные базовые методы до 7,53%, при этом сохраняя нативный интерфейс семантической прослеживаемости.

Краткое резюме

Исследование представляет FedLAB, новый подход к федеративному многомодальному обучению на графах, который позволяет эффективно извлекать знания без необходимости обмена сырыми данными. FedLAB организует знания в семантические кодбуки, что обеспечивает прослеживаемость и высокую точность при выполнении задач на графах.

Практический вывод

Использование FedLAB может значительно улучшить задачи, связанные с многомодальными графами, в условиях ограничений конфиденциальности данных, предоставляя новые возможности для применения в различных областях.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. Ограничением данного исследования является то, что FedLAB применяется только в контексте федеративного обучения, что может ограничивать его использование в других типах архитектур и моделей.

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Искусственный интеллект
Искусственный интеллект
92%

SemRF: Семантическая опорная рамка для динамики остаточного потока в языковых моделях

Анализ остаточного потока исследует, как вычисления языковой модели развиваются на разных уровнях, но промежуточное декодирование требует сопоставимых координат считывания на различных слоях. Если якорные встраивания и считывания контекстов не совпадают по выбранному диапазону, то видимое движение может отражать смещение измерений, а не вычислений. Мы вводим "Семантические опорные рамки" (SemRF), основанную на якорях формулировку, которая разделяет семантическое измерение и остаточную динамику. SemRF фиксирует якоря и измеряет состояния относительно них. Связание псевдообратных операций обеспечивает точную синхронизацию; при ограниченной би-обратимости SemRF дает стабильные семантические базисные координаты, границы искажения и почти единичные изменения. С фиксированным каркасом остаточные вычисления становятся семантической траекторией по глубине. Якоря задают семантическую диаграмму Вороноя: расстояние или такие показатели, как логиты, назначают каждому слою грубую ячейку, в то время как координаты сохраняют движения и границы внутри ячейки. Мы определяем шаги по слоям, профили вклада и диагностику дисбаланса, а затем используем след Вороноя для определения расслабленной трубки. Канонический след - это путь с минимальным действием внутри этой трубки; когда он не пустой с положительным квадратичным весом, он уникален и подчиняется дискретному уравнению сплайн. Избыточное действие контролирует шаг, кривизну и несоответствие профиля. Низкая кривизна означает кусочно-линейную сжимаемость и плотность локальных знаний: меньшая сложность следа означает меньше семантических узлов. Через отображение параметров на траекторию это дает условную связь с эффективностью параметров: среди допустимых настроек, соответствующих данным, следы с меньшим действием и меньшей сложностью используют меньше семантических степеней свободы. Эти гарантии требуют контролируемой ошибки интерфейса и малого остатка проекции при явных ограничениях трубки.

Искусственный интеллект
Искусственный интеллект
82%

TRIAGE: Наращивание кредита с учетом роли для агентного обучения с подкреплением

Агентное обучение с подкреплением требует назначения кредита действиям, направленным на взаимодействие с окружением, таким как поиски, клики, редактирования, команды навигации и взаимодействия с объектами. Стандартный GRPO использует итоговый результат проверки как единый сигнал преимущества для всех токенов действий. Этот сигнал результата полезен, но структурно неполон: он наказывает полезные исследования в неудачных имитациях и усиливает избыточные или регрессивные действия в успешных результатах. Мы предлагаем TRIAGE, структуру назначения кредита с учетом роли, которая добавляет семантическую ось роли к кредиту результата. Структурированный судья классифицирует каждый сегмент как решающий прогресс, полезное исследование, инфраструктуру без прогресса или регрессию, а фиксированное правило, зависящее от роли, отображает эти метки на ограниченные вознаграждения процесса на уровне сегмента. Это сохраняет результаты проверки как источник направления оптимизации, при этом correcting два основных слепых пятна кредита, основанного только на результате. Мы также показываем, что кредит, зависящий от роли, является оптимальной коррекцией на уровне сегмента, которую можно выразить исключительно из меток ролей — проекцией остатка преимущества на сегмент на переменную роли, — таким образом фиксированные роли снижают ошибку оценки преимущества, когда судья надежен, и мы связываем это со снижением дисперсии градиентов политики. В ALFWorld, Search-QA и WebShop TRIAGE повышает показатели успеха по сравнению с GRPO для двух моделей политики и превышает как процессные вознаграждения, извлеченные из судьи, так и базу значений, контролируемую результатом. Аблации показывают, что прирост происходит благодаря типизации ролей, а не просто добавлению плотных вознаграждений: надежное обнаружение регрессии внутри успешных траекторий является доминирующим элементом, в то время как кредит на исследование предоставляет устойчивый вторичный прирост; на завершенных результатах ALFWorld и WebShop TRIAGE также снижает количество ходов, направленных на окружение, на дополнительные 10.4% и 14.8% соответственно по сравнению с GRPO.

Искусственный интеллект
Искусственный интеллект
77%

Облако-центрированная структура блокчейна с поддержкой ИИ для адаптивного управления энергией в сетях умной электрической мобильноности.

Высокая скорость разработки электромобилей (ЭМ) вызвала проблемы пиковых нагрузок, конфиденциальности данных, масштабируемости и безопасного управления энергией в сетях умной электрической мобильности. Традиционные централизованные системы управления зарядкой ЭМ имеют недостатки, такие как утечка конфиденциальной информации, единая точка отказа, отсутствие гибкости в реальном времени и недостаток доверия к транзакциям. В данной статье предлагается структура управления энергией на основе ИИ с защитой конфиденциальности - Edge-Trust-Adaptive Learning Framework (PETAL-Grid), основанная на федеративной архитектуре блокчейна, которая поддерживает адаптивное и защищенное от утечек управление энергией. Ключевая цель данного исследования заключается в достижении масштабируемого, безопасного и оперативного управления зарядкой ЭМ через интеграцию федеративного искусственного интеллекта, интеллектуального прогнозирования спроса на краевых уровнях и управления доверием на основе блокчейна. Предложенная структура позволяет совместное обучение спроса без необходимости обмена сырыми данными, адаптивную зарядку в реальном времени на основе краевой интеллектуальной информации и прозрачные и защищённые от подделки энергетические транзакции на основе умных контрактов. Рабочий процесс PETAL-Grid включает сбор локальных данных, прогнозирование спроса на краевых уровнях, агрегацию федеративных моделей, адаптивное управление нагрузкой и валидацию транзакций на основе блокчейна. Результаты моделирования показывают, что PETAL-Grid может достигать 18% снижения пиковых нагрузок, 17% эффективности использования энергии и 98-99% безопасности транзакций, что лучше, чем в централизованных и базовых моделях. Результаты подтверждают, что PETAL-Grid является масштабируемым, надежным и безопасным решением для устойчивых сетей умной электрической мобильности.

Искусственный интеллект
Искусственный интеллект
72%

Имитационное обучение с критикой языка на основе субоптимальных демонстраций

Предыдущие работы по имитационному обучению на основе субоптимальных демонстраций обычно полагаются на сжатые сигналы супервизии, такие как оценки уверенности, баллы дискриминатора или веса важности. Эти скалярные сигналы имеют свои ограничения, так как не могут явно выразить промежуточные размышления о ходе выполнения задачи, режимах неудачи или корректирующих действиях. Мы предлагаем рамки имитационного обучения с критическим анализом языка, которое вместо этого использует естественный язык в качестве структурированного сигнала супервизии, избегая сворачивания выразительной обратной связи в скаляры. Наш метод сначала создает языковые метки на основе демонстраций, которые явно описывают текущий прогресс, идентифицируют субоптимальное поведение и предоставляют детализированные корректирующие рекомендации. Затем мы вводим функцию потерь критики языка, которая непосредственно обучает политики, используя эти структурированные сигналы, не сводя их к скалярам, и инстанцируем ее для как имитационного клонирования поведения, так и диффузионных политик, получая LC-BC и LC-DP. Мы также предоставляем теоретический результат, показывающий, что предложенная цель обеспечивает верхнюю границу разрыва производительности эксперта при стандартных предположениях. Эмпирически мы проводим оценку на различных задачах непрерывного управления, охватывающих навигацию, манипуляцию и игровую деятельность, где наши методы последовательно превосходят сильные базы имитационного обучения и оффлайн обучения с подкреплением. Эти результаты демонстрируют, что язык может служить мощной и структурированной формой супервизии для обучения устойчивым политикам на основе субоптимальных данных.

Искусственный интеллект
Искусственный интеллект
72%

AutoMem: Автоматизированное изучение памяти как когнитивного навыка

Экспертиза в памяти является приобретенным навыком: знание того, что кодировать, когда извлекать и как организовывать знания — это способность, известная в когнитивной науке как метапамять. Мы применяем эту перспективу к большим языковым моделям (LLMs), рассматривая управление памятью как обучаемый навык. Мы придаем операциям файловой системы статус основных действий памяти наряду с действиями по выполнению задач, позволяя модели самостоятельно решать, как управлять своей памятью. Этот навык памяти улучшается по двум направлениям: структура, которая его поддерживает (подсказки, схемы файлов, словарь действий), и умение модели его применять. Оба направления устойчивы к ручной оптимизации: эпизоды в долгосрочных задачах выполняются на протяжении тысяч шагов, и одна ошибка в памяти может оставаться незамеченной на долгое время, что делает человеческий обзор полных траекторий непрактичным. Мы представляем AutoMem, фреймворк, который автоматизирует оба направления. В первом цикле сильная LLM просматривает полные траектории агента и итеративно пересматривает структуру памяти, которая определяет, как агент взаимодействует со своими файлами памяти. Во втором цикле хорошие решения агента по памяти идентифицируются из множества эпизодов и используются в качестве обучающего сигнала для прямого улучшения мастерства модели в управлении памятью. В трех процедурно сгенерированных долгосрочных играх (Crafter, MiniHack и NetHack) оптимизация памяти отдельно — без изменения поведения модели в действиях по выполнению задач — улучшила производительность базового агента примерно в 2-4 раза, позволив 32B модели с открытыми весами конкурировать с передовыми системами, такими как Claude Opus 4.5 и Gemini 3.1 Pro Thinking. Наши результаты показывают, что управление памятью является независимо обучаемым навыком и представляет собой цель с высоким потенциалом, обеспечивающую значительные улучшения в долгосрочных задачах.

Искусственный интеллект
Искусственный интеллект
72%

Осязание и восприятие данных: Повторно используемый программный конвейер для тактильных статистических графиков в доступном образовании

Статистическая визуализация обычно рассматривается как визуальный носитель, но данные также можно воспринимать на ощупь. Трехмерные тактильные графики позволяют студентам с нарушениями зрения ощущать распределения, отслеживать тенденции и исследовать взаимосвязи через прямое тактильное взаимодействие. Однако использование таких графиков в классе остается ограниченным, поскольку создание каждого графика в CAD-программном обеспечении требует специализированных навыков и часов ручной работы. Мы рассматриваем эту проблему как программную через трехуровневый повторно используемый конвейер, состоящий из около 1500 строк JavaScript. Первый уровень автоматически извлекает параметры тактильного дизайна на основе размеров пластины с использованием исследований в области тактильного восприятия. Второй уровень предоставляет общую структуру графиков и пять модульных средств для построения разбросов, столбчатых диаграмм, гистограмм, линейных графиков и бокспотов. Необязательный третий уровень использует мультимодельную языковую модель для извлечения структурированных спецификаций графиков из загруженных изображений, с обязательной проверкой со стороны учителя перед созданием печатной версии. Конвейер генерирует готовые для печати двоичные файлы на языке стандартной тесселяции за менее чем 250 миллисекунд. Мы представляем дизайн, производительность и ограничения.