Искусственный интеллектarXivScience Morning3 мин чтенияpreprint

Гипотеза разделения предсказания состояния

The State-Prediction Separation Hypothesis

Рубрика
Искусственный интеллект
Источник
arXiv
Дата
01.07.2026
Автор
Science Morning
Время чтения
3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Искусственный интеллект

Аннотация

Трансформеры используют один и тот же поток вычислений для предсказания следующего токена и хранения полезного состояния для будущих предсказаний токенов. Мы формулируем гипотезу о разделении предсказания состояния: разделение этих двух ролей обеспечивает лучшую производительность языкового моделирования. Мы разрабатываем вариант трансформера, который использует два вычислительных потока для разделения этих функций, и проводим эксперименты по предварительному обучению на данных различного масштаба. Наши эксперименты показывают, что разделение предсказания состояния последовательно предлагает лучшую эффективность данных и вычислений, улучшая показатель валидации и превосходя стандартные трансформеры в среднем на 2-3 процентных пункта по downstream задачам. Мы также проводим обширный эмпирический анализ, который исключает потенциальные конфаундеры и демонстрирует принципиальное различие в градиентах, которое влечет наш дизайн.

Краткое резюме

В статье рассматривается идея разделения двух функций трансформера: предсказания следующего токена и хранения состояния для будущих предсказаний. Разработанный нами вариант трансформера, использующий два потока вычислений, показал более высокую эффективность в обучении и улучшенные результаты в задачах языкового моделирования.

Практический вывод

Разделение функций предсказания и хранения состояния в трансформерах может значительно повысить их эффективность в языковом моделировании и улучшить результаты на downstream задачах.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. В исследовании не рассматриваются все возможные варианты архитектур и масштабов данных, что ограничивает универсальность полученных результатов.

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Искусственный интеллект
Искусственный интеллект
85%

Фиделити суррогатов: Когда открытые языковые модели могут объяснить закрытые?

Механистическая интерпретируемость (МИ) требует полного доступа к внутренним структурам модели, однако APIs большинства широко распространенных языковых моделей в лучшем случае предоставляют логарифмические вероятности выходных токенов. Это создает проблему суррогата: когда измерения, выполненные на открытых моделях, позволяют нам делать выводы о закрытой модели? Мы оцениваем фиделити суррогата на уровнях предсказания, атрибуции и представления. Для задач бинарной классификации логарифмические шансы предоставляют совместимый с API скалярный вывод пространства представления модели, а атрибуции «оставь-один-наружу» дают представление о поведении модели. На основе одиннадцати моделей из четырех семейств (Llama, Qwen, GPT и Gemini) мы обнаруживаем, что фиделити предсказания существенно завышает фиделити атрибуции: модели, которые согласны в том, каков ответ, часто расходятся в том, почему. Мы фиксируем инверсии доступа и валидности: белые модели, такие как структуры внимания и величины возмущений, остаются высоко стабильными между моделями, но лишь слабо предсказывают причинные атрибуции, которые по замыслу захватывают черные абляции входных данных. Механистическое понимание не передается автоматически на закрытые цели, и соглашение на уровне предсказания недостаточно для обоснования такого переноса. Код и результаты доступны по адресу https://github.com/facebookresearch/surrogate.

Искусственный интеллект
Искусственный интеллект
82%

Теория: Проверка приемлемости переработанных выводов на основе неформальных рассуждений

Когда можно доверять ответу системы ИИ? Формальные помощники в доказательствах предлагают определенность, но не могут охватить большинство распределений задач; линейные LLM-судьи обеспечивают покрытие, но выдают непрозрачные оценки, которые не могут быть проверены после факта и подвержены тем же проблемам согласованности, что и любые LLM. Мы представляем Теорию — архитектуру верификации, которая заполняет этот пробел. Кандидатское решение переписывается в последовательность типизированных переходов состояний, каждый из которых оправдан явным обоснованием — будь то цитата, вычисление или заданный факт, и каждый переход может быть проверен независимо. Основное инвариантное требование состоит в полноте изменений: каждое отличие между последовательными состояниями доказательства должно быть учтено, чтобы скрытые предпосылки обнажались как несанкционированные мутации, а не проходили молча. На HLE-Verified Gold (185 задач для экспертов только с текстом) Теория сертифицирует 105 задач с 91.4% строгой точностью (доверительный интервал Уилсона 95% [84.5%, 95.4%]). Каждая сертификация приводит к читабельному следу доказательства, в котором каждый шаг может быть оспорен независимо. Холистические LLM-судьи достигают сопоставимой точности при аналогичном покрытии, но не справляются с разными задачами (Jaccard 0.14-0.36), что делает эти подходы дополнителями. Из 95 атакованных поврежденных доказательств в 15 областях структурированные судьи находят 94.7%, по сравнению с 83.2% для холистического судейства (p= 0.0017). В целом 11.5 процентных пункта разница сосредоточена на скрытых предпосылках (90.6% против 62.5%, разница в 28 процентных пунктов) и сфабрикованных цитатах (100% против 90%), что является классами ошибок, где формальный анализ предсказывает преимущество; производительность идентична в случаях арифметических и ошибочных применений теорем, где преимущество не предсказывается. На GPQA Diamond (n= 65) сертифицированная точность составила 97.1% (доверительный интервал Уилсона [85.1%, 99.5%]).

Искусственный интеллект
Искусственный интеллект
82%

FLORA: Подход глубокого обучения для предсказания лесных показателей на основе гетерогенных данных LiDAR

Лесные характеристики имеют ключевое значение для мониторинга ресурсов на национальном уровне. Метрики воздушного LiDAR являются одними из дополнительных переменных, наиболее сильно коррелирующих с лесными характеристиками, используемыми для оценки в Национальном лесном инвентаре (NFI). Однако создание предсказаний на всей территории остается сложной задачей, когда данные LiDAR собираются в гетерогенных условиях. С расширением национальных программ LiDAR в Европе изменчивость датчиков, параметров полета, сезонов и углов сканирования ограничивает надежность существующих моделей, которые часто откалиброваны для местных условий. Мы представляем FLORA (Регрессия лесного LiDAR на основе октодерева с использованием вспомогательных данных), фреймворк глубокого обучения, который предсказывает шесть лесных показателей: доминирующую высоту, общий объем, объем лиственных древесных пород, объем хвойных древесных пород, базальную площадь и плотность стволов на основе гетерогенных точечных облаков LiDAR. FLORA объединяет основу на основе октодерева с экологическими и спатиально-временными вспомогательными переменными с помощью механизма поздней фузии. Модели обучаются и оцениваются на 32,052 участках Национального лесного инвентаря по материковой Франции с использованием данных из программы LiDAR HD во Франции. Одна модель, обученная как на лиственном, так и на безлистном захвате, превосходит модели, специфичные для сезона, и улучшает надежность по сезонам. Вспомогательные переменные обеспечивают скромные общие приросты, но в большей степени способствуют предсказанию объема по видам. FLORA достигает значения rRMSE около 12,3% (R2 = 0,88) для доминирующей высоты и 39% (R2 = 0,74) для общего объема, предоставляя надежную основу для оценки лесных характеристик в крупных масштабах на основе гетерогенных национальных программ LiDAR.

Искусственный интеллект
Искусственный интеллект
77%

Разработка и валидация модели глубокого обучения двойного канала для прогнозирования острого повреждения почек в непрерывном режиме у критически больных пациентов.

Цель данного исследования заключалась в разработке и внешней валидации модели прогнозирования риска острого повреждения почек (ОПП) на 48 часов в реальном времени для критически больных пациентов с использованием модели глубокого обучения двойного канала (DC-AKI). Модель была разработана на основе электронных медицинских записей 28,099 пациентов в медицинском центре Beth Israel Deaconess и внешне валидирована на двух независимых когорт, состоящих из 3,108 пациентов из базы данных eICU и 2,808 пациентов из больницы народного госпиталя провинции Чжэцзян. Тридцать одна изменяющаяся во времени характеристика обновлялась каждые 6 часов. Архитектура модели DC-AKI интегрировала сети BiGRU, свёрточные слои и механизмы внимания для захвата мультишкалярных временных зависимостей. Модель достигла значений площади под кривой операционных характеристик (AUC) 0,720 (95% ДИ, 0,714-0,728) при внутренней валидации и 0,577 (95% ДИ, 0,570-0,583) и 0,798 (95% ДИ, 0,795-0,799) в двух внешних когорт. Анализ интерпретируемости SHAP выявил ключевые клинические предикторы и индивидуальные траектории риска. В заключение, DC-AKI продемонстрировала хорошую предсказательную способность в развивающей когортной популяции и на одном сайте внешней валидации, хотя производительность существенно варьировала в зависимости от учреждений. Необходимо дальнейшая валидация и локальная калибровка для поддержки её клинического применения.

Искусственный интеллект
Искусственный интеллект
77%

Динамическое представление графов для обучения на основе данных в стадировании болезни Хантингтона: оценка по сравнению с существующими методами эмбеддинга и моделями пространственного состояния

Болезнь Хантингтона (БХ) имеет гетерогенное нейродегенеративное течение, при котором моторные, когнитивные и функциональные симптомы развиваются по-разному у различных людей. Такое нетипичное течение осложняет определение дискретных стадий болезни, что затрудняет понимание траекторий заболевания, timely pa- tient care и разработку терапии. В результате существующие клинические системы стадирования в значительной степени полагаются на критерии, определяемые клиницистами, специфичные для области, и фиксированные границы клинического измерения для назначения стадии, что снижает объективность и часто приводит к перекрытию клинических измерений между стадиями. Хотя методы машинного обучения могут помочь, существующие подходы не могут полностью уловить сложные временные зависимости внутри и между пациентами. Мы предлагаем URL-STFN, модель динамического представления графов, которая кодирует как меж-, так и внутри-пациентные временные паттерны на основе долгосрочных клинических измерений. Затем мы оцениваем стадии заболевания, образованные через кластеризацию и анализ стабильности латентных представлений URL-STFN, и сравниваем их с представлениями, полученными с помощью традиционных методов эмбеддинга. Мы также проводим бенчмаркинг этих стадий, основанных на кластеризации, по сравнению с состояниями, полученными из традиционных временных моделей, включая DHMM. Мы предполагаем, что кластеризация латентных представлений URL-STFN позволяет идентифицировать стадии БХ с уменьшением перекрытия клинических измерений. Предложенная структура оценивается с использованием 1,477 клинических визитов из набора данных Enroll-HD, крупной продольной когорты с повторными клиническими оценками. Для стадирования мы использовали 44 клинических измерения, охватывающих моторную, когнитивную и функциональную области. URL-STFN определяет клинически значимые стадии БХ, которые соответствуют установленному прогрессированию заболевания, одновременно уменьшая перекрытие значений клинических признаков по сравнению с подходами, основанными на DHMM, и клиническими стадиями. Эти выводы подчеркивают потенциал модели обучения представления на основе динамических графов и фреймворка кластеризации для поддержки более объективного, основанного на данных и точного стадирования БХ.

Искусственный интеллект
Искусственный интеллект
74%

Ценообразование нейронных сертификатов для задач комбинаторной оптимизации

Задачи комбинаторной оптимизации (ЗКО) сложны, поскольку сертифицируемая дискретная структура порождает экспоненциальный поиск. Необходимо исследовать множество экспоненциально больших кандидатов для сертификации оптимальности; однако структурную состоятельность пути, упаковки или покрытия можно проверить за полиномиальное время, если она уже задана. В этом исследовании мы представляем Ценообразование Нейронных Сертификатов (ЦНС), которое использует эту асимметрию в рамках обучения без учителя. Нейронная сеть обучается предсказывать двойственные цены на уровне сертификата, в то время как структурный слой восстановления строит индуктивные первичные маржи. ЦНС можно рассматривать как амортизированное отделение: вместо перечисления нарушенных неравенств она обучается остаточным ценам, через которые их суммарный эффект входит в восстановление. Когда выполняется условие согласованности сертификата, восстановленная маржа является глобально состоятельной, а локальная теория показывает, что ошибки первого порядка в предсказанной цене вызывают только потери второго порядка в целевой функции. В трех классах ЗКО ЦНС либо значительно превосходит современные нейронные базовые модели, либо сопоставима с ними при меньших вычислительных затратах и показывает более сильную обобщаемость вне распределения.