Искусственный интеллектarXivScience Morning3 мин чтенияpreprint
Выявление скрытых предвзятостей в языковых моделях с помощью дистилляции
Distill to Detect: Exposing Stealth Biases in LLMs through Cartridge Distillation
Карточка статьи
Рубрика
Искусственный интеллект
Источник
arXiv
Дата
01.07.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Аннотация
Языковые модели, используемые в ситуациях с высокими ставками, могут потенциально благоприятствовать определенным субъектам, брендам или точкам зрения, влияя на решения пользователей в масштабах. Такие предвзятости могут быть внесены любым участником цепочки поставок модели и представляют наибольшую опасность, когда модель проявляет свои предпочтения только по соответствующей теме, оставаясь при этом идентичной своей незамененной базе по всем другим входным данным. Недавние исследования показали, что эти предвзятости могут передаваться через дистилляцию контекста на семантически не связанных данных, сигнал при этом полностью содержится в распределении мягких логитов и остается невидимым для текстовой инспекции. Однако защитник сталкивается с фундаментальной асимметрией: не зная темы предвзятости, ни один метод обнаружения не может надежно выявить скрытую предвзятость, независимо от того, анализирует ли он сгенерированный текст, внутренние представления или веса модели. В этой работе мы представляем метод Distill to Detect (D2D), который выявляет скрытые предвзятости, дистиллируя смещение распределения между подозреваемой моделью и ее базой в картридж (адаптер префикса KV-кэша), концентрируя доминирующее расхождение и усиливая сигнал предвзятости в сгенерированном тексте. Мы показываем, что D2D успешно усиливает скрытые предвзятости скрытых моделей в такой степени, что они могут быть надежно выявлены по нескольким типам предвзятости. Мы также предлагаем теоретическую основу, которая объясняет эффективность D2D через призму проекции логит-распределения, взвешенного по Фишеру, поддерживаемую эмпирическими наблюдениями. Превращая узкое место в возможности адаптеров префиксной настройки в инструмент обнаружения, D2D предоставляет практическую основу для аудита скрытых поведений в развернутых языковых моделях.
Краткое резюме
В статье представлен новый метод под названием Distill to Detect (D2D), который позволяет выявлять скрытые предвзятости в языковых моделях путем дистилляции смещения распределения между подозрительной моделью и ее базой. Указано, что данный подход может обнаруживать разные типы предвзятостей, которые остаются незаметными при стандартном текстовом анализе.
Практический вывод
Метод D2D может быть использован для аудита развернутых языковых моделей, выявляя скрытые предвзятости и усиливая сигнал этих предвзятостей в генерируемом тексте.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Исследование зависит от корректной идентификации подозреваемых моделей и их базовых версий, а также от возможности дистилляции смещения распределения в контексте конкретной задачи.
Метапознание является критически важной составляющей интеллекта, описывающей способность контролировать и регулировать собственные когнитивные процессы. Тем не менее, большие языковые модели (LLMs) демонстрируют системные недостатки в ключевых метапознавательных функциях: они создают неправильные (галлюцинирующие) ответы с высокой уверенностью, не осознают границы своих знаний и неправильно представляют свою внутреннюю неопределенность, что подрывает доверие и надежность. Учитывая, что мониторинг производительности задач и адаптация поведения в соответствии с этим являются центральными для метапознания, мы предполагаем, что модели, способные точно оценивать свою собственную производительность, лучше подготовлены для ее улучшения. Мы реализуем эту идею через два новых механизма: обучение с подкреплением с метапознавательной обратной связью (RLMF) – парадигму, позволяющую улучшать ранжирование завершений во время оптимизации предпочтений на основе качества самосуждений модели о производительности, и выбор метапознавательных данных, который использует аналогичные самосуждения для выявления ценных обучающих примеров, превосходя наивное активное обучение. Мы применяем эти инновации к проблеме надежной калибровки (FC), которая сама по себе является принципиально метапознавательной задачей: цель заключается в согласовании выраженной и внутренней неопределенности, что сложно даже для передовых LLM. Мы принимаем декомпозированный подход в два этапа: сначала используем эти методы для калибровки надежности самооценок моделей, а затем отображаем на естественную, адаптируемую по контексту языковую неопределенность через целевое редактирование выходных данных. Обширные эксперименты показывают, что RLMF достигает обобщаемой, современной надежной калибровки на различных задачах при сохранении точности. Более того, RLMF превосходит стандартное обучение с подкреплением на 63%, при этом улучшая способность моделей оценивать и выражать собственные пределы возможностей. Это ставит RLMF в качестве многообещающей парадигмы для повышения метапознавательных способностей LLM с целью улучшения возможностей моделирования и соответствия, а также предполагает, что метапознавательная производительность является эффективным сигналом обучения с подкреплением для преодоления ограничений ранее используемых методов внутренней обратной связи.
Хотя большие языковые модели (БЯМ) хорошо справляются с задачами, связанными с таблицами, они все же совершают ошибки при ссылках на данные (ЭСД), то есть неправильно цитируют или опускают значения из таблиц, несмотря на понимание их структуры. Кроме того, что ошибки при ссылках на данные влияют на точность финальных ответов, они прямо ставят под сомнение корректность и надежность промежуточных шагов рассуждения. Однако предыдущие исследования предлагали лишь ограниченные и мелкомасштабные анализы. В данной работе мы представляем первую систематическую оценку ошибок ссылок на табличные данные в различных моделях и задачах. Наши результаты показывают, что ЭСД встречаются во всех протестированных моделях (от 1.7 до 20 миллиардов параметров). Кроме того, мы демонстрируем, что внедрение ссылок на данные в качестве критика значительно улучшает точность ответов на 12.0% с помощью фильтрации на основе критика и выборки для отклонения. В заключение, мы обучили легкую модель критика с 4 миллиардами параметров, которая достигает средней F1 оценки 78.2% в обнаружении как внутрираспределенных, так и внераспределенных ЭСД и эффективно способствует выводу для более крупных моделей.
Оценка неопределенности остается давней проблемой в AI-моделях; это сводится к «знанию того, что вы не знаете», и метапознание с этим связано, что крайне сложно даже для людей (см. эффект Даннинга-Крюгера). Несмотря на то, что эта задача все еще далека от решения, даже в более простых классификационных системах, ее решение в мультимодальных больших языковых моделях (MLLM) становится все более важным. В рамках MLLM неопределенность может возникать из самых различных источников, а также из их взаимодействий, и дальше может возникнуть из неограниченных ответов в открытой среде. Для решения этих проблем мы предлагаем CoMet, метод оценки неопределенности в MLLM, который декомпозирует неопределенность на специфическую для контекста составляющую и составляющую множественности. Первая захватывает неоднозначность, вызванную данным контекстом (например, задачей или подсказкой), в то время как последняя фиксирует, сколько правдоподобных ответов, определяемых контекстом, остается совместимыми с данным входом. Мы обучаем легкий модуль оценки неопределенности постфактум для оценки этих количеств, что позволяет эффективно проводить оценку неопределенности без генерации ответов в автогрессивном режиме или повторного семплирования. Эксперименты на различных мультимодальных открытых бенчмарках, в детекции галлюцинаций и на бенчмарках визуального вопросно-ответного подхода с множественным выбором показывают, что CoMet последовательно улучшает оценку неопределенности по сравнению с существующими базовыми методами, оставаясь при этом эффективным на практике. Код доступен по ссылке https://github.com/princetonvisualai/comet_uncertainty
Обучение с подкреплением с проверяемыми наградами (RLVR) стало мощной парадигмой для обучения языковых моделей (ЛМ) по задачам с четко определяемыми метриками успеха, такими как генерация кода и математическое рассуждение. Однако текущие методы RLVR оптимизируют лишь то, что можно объективно оценить, часто пренебрегая субъективными, непроверяемыми аспектами человеческих выводов, такими как стиль и структура. Это ограничение приводит к хорошо задокументированным проблемам, таким как потеря разнообразия, неестественно звучащие ответы и манипулирование наградами. Мы предлагаем противоборствующую систему генератора-дискриминатора, которая дополняет проверяемые награды обученным сигналом из человеческих демонстраций. Модель генератора обучается с использованием RL для максимизации как точности выполнения задач, так и противоборствующей награды, полученной от дискриминатора. Дискриминатор, обучаемый вместе с политикой генератора, учится отличать тексты, написанные человеком, от сгенерированных моделью. Дискриминатор служит обученной прокси для распределения человеческих выходов, предоставляя обратную связь по аспектам генерации, которые трудно формализовать в виде скалярных наград. В различных областях, включая исправление ошибок и открытую генерацию, наш подход последовательно улучшает непроверяемые свойства, сохраняя при этом приросты точности RLVR. В исправлении ошибок наш метод демонстрирует решения с значительно меньшим расстоянием правок по сравнению с базовыми методами RLVR, достигая аналогичных результатов. В генерации рассказов наш подход значительно увеличивает вероятность победы, создавая истории, которые являются разнообразными и более приближенными к человеческим. В простом тесте на манипулирование наградами наш метод почти полностью устраняет неправильное поведение модели, сохраняя при этом высокие оценки по стандартам. Вместе эти результаты показывают, что наш подход соединяет RL и SFT, предлагая масштабируемый путь к совместной оптимизации проверяемых и непроверяемых свойств задачи.
Тенденция крупных генеративных моделей запоминать обучающие данные делает проверку выборки критически важной для аудита конфиденциальности и соблюдения авторских прав. Текущие атаки на членство (MIA) и вывод о наборе данных (DI) часто полагаются на одноразовые генерации, что приводит к слабым сигналах и ограниченной чувствительности к различным модальностям. Вдохновленные Расстройством Автофагии Моделей (MAD), мы представляем MADreMIA, модельно-агностическую структуру, которая улучшает белые, серые и черные атаки MIA и DI. Вместо того чтобы полагаться на обучение теневых моделей, что часто является непрактичным для крупных генеративных моделей, наша структура облегчает масштабируемый вывод, используя присущие сигналы через итеративные траектории. Этот процесс использует цепные генерации в различных модальностях, где каждый выход служит последующим входом, для улучшения доказательства членства при низком уровне ложноположительных срабатываний. Мы демонстрируем, что запомненные обучающие образцы обладают значительно большей когерентностью и медленнее деградируют во время итеративной регенерации, чем необсуждаемые генерации. Наши результаты показывают, что MADreMIA предоставляет более богатые сигналы для различных моделей и модальностей; мы представляем полные оценки для IAR, диффузионных и языковых моделей, а также предварительные результаты, демонстрирующие ее потенциал для аудиомоделей.
Анализ остаточного потока исследует, как вычисления языковой модели развиваются на разных уровнях, но промежуточное декодирование требует сопоставимых координат считывания на различных слоях. Если якорные встраивания и считывания контекстов не совпадают по выбранному диапазону, то видимое движение может отражать смещение измерений, а не вычислений. Мы вводим "Семантические опорные рамки" (SemRF), основанную на якорях формулировку, которая разделяет семантическое измерение и остаточную динамику. SemRF фиксирует якоря и измеряет состояния относительно них. Связание псевдообратных операций обеспечивает точную синхронизацию; при ограниченной би-обратимости SemRF дает стабильные семантические базисные координаты, границы искажения и почти единичные изменения. С фиксированным каркасом остаточные вычисления становятся семантической траекторией по глубине. Якоря задают семантическую диаграмму Вороноя: расстояние или такие показатели, как логиты, назначают каждому слою грубую ячейку, в то время как координаты сохраняют движения и границы внутри ячейки. Мы определяем шаги по слоям, профили вклада и диагностику дисбаланса, а затем используем след Вороноя для определения расслабленной трубки. Канонический след - это путь с минимальным действием внутри этой трубки; когда он не пустой с положительным квадратичным весом, он уникален и подчиняется дискретному уравнению сплайн. Избыточное действие контролирует шаг, кривизну и несоответствие профиля. Низкая кривизна означает кусочно-линейную сжимаемость и плотность локальных знаний: меньшая сложность следа означает меньше семантических узлов. Через отображение параметров на траекторию это дает условную связь с эффективностью параметров: среди допустимых настроек, соответствующих данным, следы с меньшим действием и меньшей сложностью используют меньше семантических степеней свободы. Эти гарантии требуют контролируемой ошибки интерфейса и малого остатка проекции при явных ограничениях трубки.