Искусственный интеллект30.06.2026arXivScience Morning3 мин чтенияpreprint

SemRF: Семантическая опорная рамка для динамики остаточного потока в языковых моделях

SemRF: A Semantic Reference Frame for Residual-Stream Dynamics in Language Models

Карточка статьи

Рубрика: Искусственный интеллект
Источник: arXiv
Дата: 30.06.2026
Автор: Science Morning
Время чтения: 3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Аннотация

Анализ остаточного потока исследует, как вычисления языковой модели развиваются на разных уровнях, но промежуточное декодирование требует сопоставимых координат считывания на различных слоях. Если якорные встраивания и считывания контекстов не совпадают по выбранному диапазону, то видимое движение может отражать смещение измерений, а не вычислений. Мы вводим "Семантические опорные рамки" (SemRF), основанную на якорях формулировку, которая разделяет семантическое измерение и остаточную динамику. SemRF фиксирует якоря и измеряет состояния относительно них. Связание псевдообратных операций обеспечивает точную синхронизацию; при ограниченной би-обратимости SemRF дает стабильные семантические базисные координаты, границы искажения и почти единичные изменения. С фиксированным каркасом остаточные вычисления становятся семантической траекторией по глубине. Якоря задают семантическую диаграмму Вороноя: расстояние или такие показатели, как логиты, назначают каждому слою грубую ячейку, в то время как координаты сохраняют движения и границы внутри ячейки. Мы определяем шаги по слоям, профили вклада и диагностику дисбаланса, а затем используем след Вороноя для определения расслабленной трубки. Канонический след - это путь с минимальным действием внутри этой трубки; когда он не пустой с положительным квадратичным весом, он уникален и подчиняется дискретному уравнению сплайн. Избыточное действие контролирует шаг, кривизну и несоответствие профиля. Низкая кривизна означает кусочно-линейную сжимаемость и плотность локальных знаний: меньшая сложность следа означает меньше семантических узлов. Через отображение параметров на траекторию это дает условную связь с эффективностью параметров: среди допустимых настроек, соответствующих данным, следы с меньшим действием и меньшей сложностью используют меньше семантических степеней свободы. Эти гарантии требуют контролируемой ошибки интерфейса и малого остатка проекции при явных ограничениях трубки.

Краткое резюме

Статья вводит новый подход к анализу языковых моделей, называемый семантическими опорными рамками (SemRF), который помогает различать семантические измерения и динамику остаточного потока. Этот метод позволяет улучшить понимание того, как вычисления модели развиваются на разных уровнях, и может привести к более эффективному использованию семантических степеней свободы.

Практический вывод

Использование семантических опорных рамок в языковых моделях позволяет добиться большей точности в анализе и повышенной эффективности вычислений, что особенно важно при работе с большими объемами данных.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. Обсуждаемое исследование накладывает ограничения на необходимость контролируемой ошибки интерфейса и малых остатков проекции при явных ограничениях, что может ограничивать применимость метода в некоторых сценариях.

Дальше по теме

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Искусственный интеллект1 июля 2026 г.

82%

Параллельные линейные оценки ошибок линейзации на GPU для робастного оптимального управления в реальном времени для нелинейной динамики и нейронных сетей

В данной статье рассматривается робастное оптимальное управление в реальном времени для неопределенных нелинейных систем, где линейные временные приближения (LTV) упрощают планирование, но требуют достоверных оценок ошибок линейзации (LEBs) для обеспечения соблюдения устойчивых ограничений. Мы разработали строгие, дифференцируемые оценки ошибок линейзации на GPU для LTV-аппроксимаций нелинейной динамики и динамики нейронных сетей (NN). Для аналитической динамики мы вводим оценки Гессиана на основе пути, которые являются более строгими, чем стандартные интервальные методы. Для динамики NN мы выводим сертифицированные LEB, используя аффинные релаксации, сгенерированные верификатором NN, и локальные коррекции Якобиана. Мы адаптировали парный LTV-составляющий решатель для робастного управления на уровне систем, чтобы он соответствовал этим LEB, расширив его на обработку правообратимых матриц возмущений и нецентрицированных наборов возмущений для строгого зонотопного распространения неопределенности. Наш метод, GPUSLS-LEO, позволяет онлайн-оптимизацию робастных обратных стратегий, учитывающих ошибку линейзации, обеспечивая надежные, формально проверенные достигнутые трубки. На комплексных нелинейных и NN динамиках с размерностями до 168 состояний наш метод может вычислять робастные стратегии управления на GPU со скоростью до 67 Гц, снижая время решения и консервативность по сравнению с базовыми решениями, сохраняя при этом формальные гарантии и производительность в реальном времени.

arXivЧитать

Искусственный интеллект2 июля 2026 г.

77%

Starmate: Легковесный ИИ-ассистент для опекунов людей с аутизмом, разработанный и оценённый с использованием ориентированной на пользователя смешанной методологии.

Аутизм и расстройства спектра аутизма (РАС) затрагивают десятки миллионов семей по всему миру, однако родители сталкиваются с обилием, но ненадёжными онлайн-советами и ограниченным доступом к своевременному, сочувственному руководству. Чтобы заполнить этот критический пробел, мы разработали Starmate (http://kefeng.mpu.edu.mo/starmate) — ИИ-ассистент с 1,5 миллиарда параметров, адаптированный для опекунов людей с РАС, используя строгую ориентированную на пользователя смешанную методологию. На основе углублённых интервью и опроса Kano, который выявил «практическое руководство» как необходимое требование для опекунов, мы сконструировали новую модульную архитектуру, интегрирующую анализ настроений, извлечение знаний на основе графов, проверенное экспертами (LightRAG), и модель Qwen2.5-1.5B, специально подстроенную под нашу домен. В слепом сравнении с ведущими коммерческими крупными языковыми моделями, Starmate показал улучшенные результаты по ключевым метрикам в рамках данной оценки (86.76 против 78.43-83.84) и продемонстрировал конкретные преимущества в области эмпатии, практического руководства и логической ясности. Автоматизированное бенчмаркинг также подтвердило эти результаты, с высокими оценками по профессиональной точности (86.18), эмпатии (86.79) и практическому руководству (82.58). Эти результаты демонстрируют техническую возможность легковесной, ориентированной на конфиденциальность, специализированной крупной языковой модели для генерации точных, эмпатичных и действенных ответов в бенчмаркинговых сценариях, создавая основу для будущей реальной пригодности и клинического тестирования.

PubMedЧитать

Искусственный интеллект1 июля 2026 г.

77%

Облако-центрированная структура блокчейна с поддержкой ИИ для адаптивного управления энергией в сетях умной электрической мобильноности.

Высокая скорость разработки электромобилей (ЭМ) вызвала проблемы пиковых нагрузок, конфиденциальности данных, масштабируемости и безопасного управления энергией в сетях умной электрической мобильности. Традиционные централизованные системы управления зарядкой ЭМ имеют недостатки, такие как утечка конфиденциальной информации, единая точка отказа, отсутствие гибкости в реальном времени и недостаток доверия к транзакциям. В данной статье предлагается структура управления энергией на основе ИИ с защитой конфиденциальности - Edge-Trust-Adaptive Learning Framework (PETAL-Grid), основанная на федеративной архитектуре блокчейна, которая поддерживает адаптивное и защищенное от утечек управление энергией. Ключевая цель данного исследования заключается в достижении масштабируемого, безопасного и оперативного управления зарядкой ЭМ через интеграцию федеративного искусственного интеллекта, интеллектуального прогнозирования спроса на краевых уровнях и управления доверием на основе блокчейна. Предложенная структура позволяет совместное обучение спроса без необходимости обмена сырыми данными, адаптивную зарядку в реальном времени на основе краевой интеллектуальной информации и прозрачные и защищённые от подделки энергетические транзакции на основе умных контрактов. Рабочий процесс PETAL-Grid включает сбор локальных данных, прогнозирование спроса на краевых уровнях, агрегацию федеративных моделей, адаптивное управление нагрузкой и валидацию транзакций на основе блокчейна. Результаты моделирования показывают, что PETAL-Grid может достигать 18% снижения пиковых нагрузок, 17% эффективности использования энергии и 98-99% безопасности транзакций, что лучше, чем в централизованных и базовых моделях. Результаты подтверждают, что PETAL-Grid является масштабируемым, надежным и безопасным решением для устойчивых сетей умной электрической мобильности.

PubMedЧитать

Искусственный интеллект30 июня 2026 г.

77%

Infoxmed2.0-27B: Тюнинг инструкций, согласование предпочтений и обучение модели награды на основе GRPO для медицинских LLM

Абстракт. Большие языковые модели (LLMs) продемонстрировали выдающиеся возможности в общих областях, однако их применение в специализированных медицинских контекстах требует строгой адаптации к предметной области. Мы представляем Infoxmed2.0-27B, медицинскую фундаментальную модель, построенную на основе Qwen3.5-27B через комплексный многоступенчатый постобучающий процесс: (1) синтез проприетарных медицинских данных из базы данных MySQL с организацией MedicalCategoryTree, валидация командой врачей с докторскими степенями, семантическая дедупликация на основе китайского RoBERTa и языковая доработка с помощью API; (2) супервайзинг — тонкая настройка Qwen3.5-27B с помощью LoRA (r = 8, = 32) с использованием MS-Swift, что приводит к итерациям Infoxmed2.0.0[->]2.0.2[->]2.0.4; (3) оптимизация прямых предпочтений (DPO) на 6,283 отобранных парах медицинских предпочтений с использованием потерь DPO-RPO ({beta} = 0.3, RPO = 0.1) через восемь прогрессивных итераций обучения (v0-v7); и (4) параллельное обучение модели вознаграждений, основанное на методах групповой относительной политики (GRPO), с внутренними правилами вознаграждений и внешними сигналами DeepSeek. Комплексные оценки в рамках единой структуры LLM-as-Judge с GPT-5.4 демонстрируют 77.0% точности (средний балл качества +7.18) на MedMCQA и +2.59 на HLE, при этом прогресс по этапам составляет +6.69 (базовый) до +7.06 (SFT) до +7.18 (финальный).

medRxivЧитать

Искусственный интеллект1 июля 2026 г.

74%

Гипотеза разделения предсказания состояния

Трансформеры используют один и тот же поток вычислений для предсказания следующего токена и хранения полезного состояния для будущих предсказаний токенов. Мы формулируем гипотезу о разделении предсказания состояния: разделение этих двух ролей обеспечивает лучшую производительность языкового моделирования. Мы разрабатываем вариант трансформера, который использует два вычислительных потока для разделения этих функций, и проводим эксперименты по предварительному обучению на данных различного масштаба. Наши эксперименты показывают, что разделение предсказания состояния последовательно предлагает лучшую эффективность данных и вычислений, улучшая показатель валидации и превосходя стандартные трансформеры в среднем на 2-3 процентных пункта по downstream задачам. Мы также проводим обширный эмпирический анализ, который исключает потенциальные конфаундеры и демонстрирует принципиальное различие в градиентах, которое влечет наш дизайн.

arXivЧитать

Искусственный интеллект1 июля 2026 г.

72%

Имитационное обучение с критикой языка на основе субоптимальных демонстраций

Предыдущие работы по имитационному обучению на основе субоптимальных демонстраций обычно полагаются на сжатые сигналы супервизии, такие как оценки уверенности, баллы дискриминатора или веса важности. Эти скалярные сигналы имеют свои ограничения, так как не могут явно выразить промежуточные размышления о ходе выполнения задачи, режимах неудачи или корректирующих действиях. Мы предлагаем рамки имитационного обучения с критическим анализом языка, которое вместо этого использует естественный язык в качестве структурированного сигнала супервизии, избегая сворачивания выразительной обратной связи в скаляры. Наш метод сначала создает языковые метки на основе демонстраций, которые явно описывают текущий прогресс, идентифицируют субоптимальное поведение и предоставляют детализированные корректирующие рекомендации. Затем мы вводим функцию потерь критики языка, которая непосредственно обучает политики, используя эти структурированные сигналы, не сводя их к скалярам, и инстанцируем ее для как имитационного клонирования поведения, так и диффузионных политик, получая LC-BC и LC-DP. Мы также предоставляем теоретический результат, показывающий, что предложенная цель обеспечивает верхнюю границу разрыва производительности эксперта при стандартных предположениях. Эмпирически мы проводим оценку на различных задачах непрерывного управления, охватывающих навигацию, манипуляцию и игровую деятельность, где наши методы последовательно превосходят сильные базы имитационного обучения и оффлайн обучения с подкреплением. Эти результаты демонстрируют, что язык может служить мощной и структурированной формой супервизии для обучения устойчивым политикам на основе субоптимальных данных.

arXivЧитать