Искусственный интеллектarXivScience Morning3 мин чтенияpreprint
Фиделити суррогатов: Когда открытые языковые модели могут объяснить закрытые?
Surrogate Fidelity: When Can Open LLMs Explain Closed Ones?
Карточка статьи
Рубрика
Искусственный интеллект
Источник
arXiv
Дата
30.06.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Краткое резюме
Статья исследует проблему переноса интерпретируемости между открытиями и закрытыми языковыми моделями. Авторы анализируют, как информация, полученная из открытых моделей, может быть использована для понимания закрытых, и показывают, что согласие в предсказаниях не всегда коррелирует с согласованием причинных объяснений. Это ставит под сомнение надежность интерпретаций, основанных на фиделити предсказаний.
Практический вывод
Результаты подчеркивают важность осторожности при интерпретации результатов открытых моделей в отношении закрытых. Согласие в предсказаниях не гарантирует правильности интерпретаций, что требует дополнительных исследований.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Исследование ограничено только одним классом задач (бинарной классификацией) и не учитывает другие типы моделей и задач. Также существует необходимость в более глубоком анализе механизмов, стоящих за фиделити суррогатов в других контекстах и приложениях.
Обучение с подкреплением (RL) стало центральным компонентом постобучения крупных языковых моделей (LLMs), однако мало что известно о том, как адаптация RL распределена по слоям трансформера. Существующие подходы обычно обновляют все параметры модели равномерно, подразумевая, что каждый слой вносит схожий вклад в приросты, достигнутые в процессе постобучения с использованием RL. В данной работе мы ставим под сомнение это предположение через систематическое изучение обучения RL по слоям. Удивительно, но мы обнаружили, что обучение одного слоя трансформера может воспроизвести большую часть приростов, достигнутых при полном обучении с RL, а в некоторых случаях даже превзойти его. Чтобы количественно оценить это явление, мы вводим величину "вклад слоя", которая измеряет долю полного улучшения RL, достигнутого благодаря обучению слоя в изоляции. В рамках семи моделей, охватывающих две семейства моделей (Qwen3, Qwen2.5), три алгоритма RL (GRPO, GiGPO, Dr. GRPO) и несколько областей задач, включая математическое рассуждение, генерацию кода и агентное принятие решений, мы наблюдаем замечательно стабильный паттерн: приросты RL сосредоточены в небольшом подмножестве, а в большинстве случаев даже в одном слое трансформера. Более того, тот же структурный паттерн последовательно возникает: слои с высоким вкладом сосредоточены в середине стека трансформера, тогда как слои ближе к входу и выходу вносят значительно меньший вклад. Ранжирование слоев при этом остается сильно коррелированным между датасетами, задачами, семействами моделей и алгоритмами RL.
Языковые модели, используемые в ситуациях с высокими ставками, могут потенциально благоприятствовать определенным субъектам, брендам или точкам зрения, влияя на решения пользователей в масштабах. Такие предвзятости могут быть внесены любым участником цепочки поставок модели и представляют наибольшую опасность, когда модель проявляет свои предпочтения только по соответствующей теме, оставаясь при этом идентичной своей незамененной базе по всем другим входным данным. Недавние исследования показали, что эти предвзятости могут передаваться через дистилляцию контекста на семантически не связанных данных, сигнал при этом полностью содержится в распределении мягких логитов и остается невидимым для текстовой инспекции. Однако защитник сталкивается с фундаментальной асимметрией: не зная темы предвзятости, ни один метод обнаружения не может надежно выявить скрытую предвзятость, независимо от того, анализирует ли он сгенерированный текст, внутренние представления или веса модели. В этой работе мы представляем метод Distill to Detect (D2D), который выявляет скрытые предвзятости, дистиллируя смещение распределения между подозреваемой моделью и ее базой в картридж (адаптер префикса KV-кэша), концентрируя доминирующее расхождение и усиливая сигнал предвзятости в сгенерированном тексте. Мы показываем, что D2D успешно усиливает скрытые предвзятости скрытых моделей в такой степени, что они могут быть надежно выявлены по нескольким типам предвзятости. Мы также предлагаем теоретическую основу, которая объясняет эффективность D2D через призму проекции логит-распределения, взвешенного по Фишеру, поддерживаемую эмпирическими наблюдениями. Превращая узкое место в возможности адаптеров префиксной настройки в инструмент обнаружения, D2D предоставляет практическую основу для аудита скрытых поведений в развернутых языковых моделях.
Метапознание является критически важной составляющей интеллекта, описывающей способность контролировать и регулировать собственные когнитивные процессы. Тем не менее, большие языковые модели (LLMs) демонстрируют системные недостатки в ключевых метапознавательных функциях: они создают неправильные (галлюцинирующие) ответы с высокой уверенностью, не осознают границы своих знаний и неправильно представляют свою внутреннюю неопределенность, что подрывает доверие и надежность. Учитывая, что мониторинг производительности задач и адаптация поведения в соответствии с этим являются центральными для метапознания, мы предполагаем, что модели, способные точно оценивать свою собственную производительность, лучше подготовлены для ее улучшения. Мы реализуем эту идею через два новых механизма: обучение с подкреплением с метапознавательной обратной связью (RLMF) – парадигму, позволяющую улучшать ранжирование завершений во время оптимизации предпочтений на основе качества самосуждений модели о производительности, и выбор метапознавательных данных, который использует аналогичные самосуждения для выявления ценных обучающих примеров, превосходя наивное активное обучение. Мы применяем эти инновации к проблеме надежной калибровки (FC), которая сама по себе является принципиально метапознавательной задачей: цель заключается в согласовании выраженной и внутренней неопределенности, что сложно даже для передовых LLM. Мы принимаем декомпозированный подход в два этапа: сначала используем эти методы для калибровки надежности самооценок моделей, а затем отображаем на естественную, адаптируемую по контексту языковую неопределенность через целевое редактирование выходных данных. Обширные эксперименты показывают, что RLMF достигает обобщаемой, современной надежной калибровки на различных задачах при сохранении точности. Более того, RLMF превосходит стандартное обучение с подкреплением на 63%, при этом улучшая способность моделей оценивать и выражать собственные пределы возможностей. Это ставит RLMF в качестве многообещающей парадигмы для повышения метапознавательных способностей LLM с целью улучшения возможностей моделирования и соответствия, а также предполагает, что метапознавательная производительность является эффективным сигналом обучения с подкреплением для преодоления ограничений ранее используемых методов внутренней обратной связи.
Хотя большие языковые модели (БЯМ) хорошо справляются с задачами, связанными с таблицами, они все же совершают ошибки при ссылках на данные (ЭСД), то есть неправильно цитируют или опускают значения из таблиц, несмотря на понимание их структуры. Кроме того, что ошибки при ссылках на данные влияют на точность финальных ответов, они прямо ставят под сомнение корректность и надежность промежуточных шагов рассуждения. Однако предыдущие исследования предлагали лишь ограниченные и мелкомасштабные анализы. В данной работе мы представляем первую систематическую оценку ошибок ссылок на табличные данные в различных моделях и задачах. Наши результаты показывают, что ЭСД встречаются во всех протестированных моделях (от 1.7 до 20 миллиардов параметров). Кроме того, мы демонстрируем, что внедрение ссылок на данные в качестве критика значительно улучшает точность ответов на 12.0% с помощью фильтрации на основе критика и выборки для отклонения. В заключение, мы обучили легкую модель критика с 4 миллиардами параметров, которая достигает средней F1 оценки 78.2% в обнаружении как внутрираспределенных, так и внераспределенных ЭСД и эффективно способствует выводу для более крупных моделей.
Понимание причин, стоящих за человеческими выборами в условиях риска, является центральной целью науки о принятии решений, однако традиционные методы, основанные на поведенческих данных, ограничены строгими предположениями о неизменности. Мы представляем масштабируемую аналитическую структуру с использованием больших языковых моделей (BLM) для анализа устных отчетов и выявления сформулированных причин выбора между денежными лотереями. Проверенная BLM точно определила предопределенные причины решений в свободных текстовых отчетах участников, что совпало с их фактическими выборами в 95% случаев. Наш анализ показывает, что причины, лежащие в основе решений людей, варьируются систематически и в большей степени зависят от структуры проблемы выбора, чем от индивидуальных различий. Важно отметить, что причины, полученные из устных отчетов, предоставляют более экономичные и информативные представления процессов принятия решений, чем те, что исходят только из выборов; кроме того, профили причин, специфичных для проблемы, достигают точности предсказаний вне выборки, которая сопоставима с установленными вычислительными моделями. Эта работа демонстрирует, что устные отчеты являются богатым источником данных, и наша аналитическая структура может раскрыть их потенциал, предоставляя результаты, которые ставят под сомнение основные предположения о неизменности в этой области и прокладывают путь к более контекстно чувствительным и интерпретируемым моделям человеческого принятия решений.
Когда обучение языковых моделей (ЯМ) генерировать объяснения своих предсказаний приводит к верной интроспекции, а не к поверхностной имитации? Мы изучаем ЯМ, обученные объяснять, какие характеристики их входных данных повлияли на их поведение, используя контрфактическое поведение моделей на изменённых входных данных в качестве контроля. Удивительно, но мы обнаружили, что ЯМ, обученные на фиксированных контрфактических объяснениях, полученных из предыдущих контрольных точек самих себя или даже из поведенчески схожих моделей из других семейств, часто выдают объяснения, более соответствующие их текущему поведению, нежели целям их обучения. Эта «интроспективная» связь между объяснениями ЯМ и поведением возникает, когда обучение объяснениям остаётся достаточно коррелированным с текущим поведением в течение всего периода обучения, даже при изменении самого поведения. Мы также показываем, что интроспективная связь отслеживает изменения поведения: когда обучение объяснениям предоставляется одновременно с другими задачами после обучения, объяснения отслеживают эти изменения без необходимости в обновлённом контроле. Это явление проявляется в нескольких задачах, включая лестничество и отказ, и устойчива к шуму в метках. В целом, наши результаты показывают, что даже фиксированные наборы данных контрфактических объяснений могут предоставить масштабируемый и универсальный сигнал после обучения для интроспекции.