Искусственный интеллектarXivScience Morning3 мин чтенияpreprint
Радиальное подавление ускоряет алгоритмическую генерализацию: геометрический анализ задержки генерализации
Radial Suppression Accelerates Algorithmic Generalization: A Geometric Analysis of Delayed Generalization
Карточка статьи
Рубрика
Искусственный интеллект
Источник
arXiv
Дата
30.06.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Аннотация
Почему нейронные сети запоминают алгоритмические данные для обучения задолго до того, как начинают обобщать? Мы представляем геометрическое исследование, показывающее, что в задачах, где для общего результата необходимо открыть структурированные низкоразмерные цепи, задержка запоминания-обобщения управляется радиальной инфляцией скрытых представлений при оптимизации кросс-энтропии. Мы формализуем радиально-угловую декомпозицию динамики пространства активаций и выводим три тестируемые гипотезы: (i) что штраф за радиальную инфляцию вызывает анизотропную, зависимую от данных регуляризацию весов; (ii) что это подавляет радиальную градиентную энергию ниже изотропного случайного базиса, заставляя происходить преимущественно угловые обновления; и (iii) что это смещает сходимость к более плоским минимума. Для эмпирической проверки этих предложений мы изучаем норму с одним гиперпараметром, которая мягко ограничивает активации гиперсферы радиусом sqrt(d). При использовании модульной арифметики этот штраф ускоряет усвоение до 6 раз для MLP и Transformer, и сокращает число шагов обучения на половину для nanoGPT с 10 миллионами параметров при решении задачи сложения трехзначных чисел.
Краткое резюме
Исследование рассматривает задержку в работе нейронных сетей между запоминанием алгоритмических данных и их обобщением. Авторы показывают, что радиальная инфляция скрытых представлений тормозит процесс обобщения. Они предлагают подход, ограничивающий активации в пространстве низкого размера, что значительно ускоряет обучение нейронных сетей.
Практический вывод
Исследование демонстрирует, что применение штрафа за радиальную инфляцию активаций может значительно повысить скорость обобщения нейронных сетей.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Результаты касаются только нейронных сетей и задач, связанных с модульной арифметикой, что может ограничивать их применимость в других областях.
В данном исследовании рассматривается применение методов глубокого обучения для автоматизации процесса ультразвукового исследования бедер у младенцев. Основное внимание уделяется достижению надежной генерализации модели на различных устройствах и в условиях различных заболеваний, что является критически важным для повышения точности диагностики.
В данной статье рассматривается робастное оптимальное управление в реальном времени для неопределенных нелинейных систем, где линейные временные приближения (LTV) упрощают планирование, но требуют достоверных оценок ошибок линейзации (LEBs) для обеспечения соблюдения устойчивых ограничений. Мы разработали строгие, дифференцируемые оценки ошибок линейзации на GPU для LTV-аппроксимаций нелинейной динамики и динамики нейронных сетей (NN). Для аналитической динамики мы вводим оценки Гессиана на основе пути, которые являются более строгими, чем стандартные интервальные методы. Для динамики NN мы выводим сертифицированные LEB, используя аффинные релаксации, сгенерированные верификатором NN, и локальные коррекции Якобиана. Мы адаптировали парный LTV-составляющий решатель для робастного управления на уровне систем, чтобы он соответствовал этим LEB, расширив его на обработку правообратимых матриц возмущений и нецентрицированных наборов возмущений для строгого зонотопного распространения неопределенности. Наш метод, GPUSLS-LEO, позволяет онлайн-оптимизацию робастных обратных стратегий, учитывающих ошибку линейзации, обеспечивая надежные, формально проверенные достигнутые трубки. На комплексных нелинейных и NN динамиках с размерностями до 168 состояний наш метод может вычислять робастные стратегии управления на GPU со скоростью до 67 Гц, снижая время решения и консервативность по сравнению с базовыми решениями, сохраняя при этом формальные гарантии и производительность в реальном времени.
Гипермасштабируемые микросервисные системы стали стандартной инфраструктурой для крупных интернет-компаний. Эти системы состоят из множества слабо связанных микросервисов, которые развиваются независимо через постоянную разработку и развертывание. Такая сложность делает сбои неизбежными, что требует эффективного анализа коренных причин (RCA), чтобы помочь инженерам по надежности сайтов (SRE) быстро локализовать корневые сервисы и классифицировать типы сбоев. Однако существующие методы RCA часто сталкиваются с трудностями в адаптации к экстремальной динамичности и масштабам этих систем. В этой работе мы представляем KRCA, сквозную систему RCA, разработанную для гипермасштабируемых микросервисных систем. Для управления обширным пространством поиска KRCA использует многоступенчатый конвейер, который начинается с досконального анализа на уровне API для изоляции подозрительных сервисов. Затем он создает граф причинно-следственных связей на основе аномальных метрик, чтобы служить высокореколлным структурным приоритетом, прежде чем использовать память-расширенную многоагентную структуру для проверки причинности и генерации окончательного отчета о сбое. Объединив структурированные причинно-следственные ограничения с многоагентным рассуждением, KRCA обеспечивает баланс между диагностической точностью и требованиями к эффективности для использования в реальном времени. Экспериментальные результаты показывают, что KRCA достигает оценок AC@1 0.88 и 0.79 для локализации корневых сервисов и классификации типов сбоев, превосходя самые сильные базовые показатели по крайней мере на 31% в абсолютных приростах. KRCA была внедрена в производственной среде Kuaishou на протяжении более шести месяцев, что позволило сократить среднее время диагностики на 77.3%.
Языковые модели (ЯМ) все чаще используются для генерации идей для исследований, но существующие оценки в основном судят о каждой идее по таким критериям, как новизна, осуществимость или предпочтения экспертов. Вместо этого мы задаем вопрос: насколько далеко находятся текущие идеи, сгенерированные ЯМ, от идей человеческих исследователей? Чтобы охарактеризовать этот разрыв, мы разрабатываем рамки крупномасштабной оценки идей на основе высококачественных научных статей. Для каждой статьи мы проводим обратную разработку небольшого набора тесно связанных предыдущих работ, которые, вероятно, вдохновили ее основную идею. Затем ЯМ получают задание сгенерировать новую идею на основе набора заголовков и аннотаций статей. Мы представляем таксономию вкусов в исследованиях по двум осям, чтобы охарактеризовать каждую идею по ее паттерну возможностей и исследовательской парадигме, и используем ее для количественной оценки различий между человеческими и ЯМ-генерированными идеями. В различных наборах идей, сгенерированных разными ЯМ, мы наблюдаем постоянный распределительный разрыв: идеи ЯМ непропорционально сосредоточены вокруг возможностей синтеза и аналогий, в то время как распределение ссылок на человеческие работы намного шире и охватывает более разнообразные способы формирования разрывов и конструкций вкладов. Этот результат указывает на то, что мощные ЯМ могут производить ряд разумных идей, но этот диапазон остается уже и систематически смещенным по сравнению с исследовательским вкусом человека.
Обучение с подкреплением (RL) стало центральным компонентом постобучения крупных языковых моделей (LLMs), однако мало что известно о том, как адаптация RL распределена по слоям трансформера. Существующие подходы обычно обновляют все параметры модели равномерно, подразумевая, что каждый слой вносит схожий вклад в приросты, достигнутые в процессе постобучения с использованием RL. В данной работе мы ставим под сомнение это предположение через систематическое изучение обучения RL по слоям. Удивительно, но мы обнаружили, что обучение одного слоя трансформера может воспроизвести большую часть приростов, достигнутых при полном обучении с RL, а в некоторых случаях даже превзойти его. Чтобы количественно оценить это явление, мы вводим величину "вклад слоя", которая измеряет долю полного улучшения RL, достигнутого благодаря обучению слоя в изоляции. В рамках семи моделей, охватывающих две семейства моделей (Qwen3, Qwen2.5), три алгоритма RL (GRPO, GiGPO, Dr. GRPO) и несколько областей задач, включая математическое рассуждение, генерацию кода и агентное принятие решений, мы наблюдаем замечательно стабильный паттерн: приросты RL сосредоточены в небольшом подмножестве, а в большинстве случаев даже в одном слое трансформера. Более того, тот же структурный паттерн последовательно возникает: слои с высоким вкладом сосредоточены в середине стека трансформера, тогда как слои ближе к входу и выходу вносят значительно меньший вклад. Ранжирование слоев при этом остается сильно коррелированным между датасетами, задачами, семействами моделей и алгоритмами RL.
Предыдущие работы по имитационному обучению на основе субоптимальных демонстраций обычно полагаются на сжатые сигналы супервизии, такие как оценки уверенности, баллы дискриминатора или веса важности. Эти скалярные сигналы имеют свои ограничения, так как не могут явно выразить промежуточные размышления о ходе выполнения задачи, режимах неудачи или корректирующих действиях. Мы предлагаем рамки имитационного обучения с критическим анализом языка, которое вместо этого использует естественный язык в качестве структурированного сигнала супервизии, избегая сворачивания выразительной обратной связи в скаляры. Наш метод сначала создает языковые метки на основе демонстраций, которые явно описывают текущий прогресс, идентифицируют субоптимальное поведение и предоставляют детализированные корректирующие рекомендации. Затем мы вводим функцию потерь критики языка, которая непосредственно обучает политики, используя эти структурированные сигналы, не сводя их к скалярам, и инстанцируем ее для как имитационного клонирования поведения, так и диффузионных политик, получая LC-BC и LC-DP. Мы также предоставляем теоретический результат, показывающий, что предложенная цель обеспечивает верхнюю границу разрыва производительности эксперта при стандартных предположениях. Эмпирически мы проводим оценку на различных задачах непрерывного управления, охватывающих навигацию, манипуляцию и игровую деятельность, где наши методы последовательно превосходят сильные базы имитационного обучения и оффлайн обучения с подкреплением. Эти результаты демонстрируют, что язык может служить мощной и структурированной формой супервизии для обучения устойчивым политикам на основе субоптимальных данных.