Искусственный интеллектarXivScience Morning3 мин чтенияpreprint

Усиление сигнала о членстве через цепную регенерацию

Amplifying Membership Signal Through Chained Regeneration

Рубрика
Искусственный интеллект
Источник
arXiv
Дата
30.06.2026
Автор
Science Morning
Время чтения
3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Искусственный интеллект

Аннотация

Тенденция крупных генеративных моделей запоминать обучающие данные делает проверку выборки критически важной для аудита конфиденциальности и соблюдения авторских прав. Текущие атаки на членство (MIA) и вывод о наборе данных (DI) часто полагаются на одноразовые генерации, что приводит к слабым сигналах и ограниченной чувствительности к различным модальностям. Вдохновленные Расстройством Автофагии Моделей (MAD), мы представляем MADreMIA, модельно-агностическую структуру, которая улучшает белые, серые и черные атаки MIA и DI. Вместо того чтобы полагаться на обучение теневых моделей, что часто является непрактичным для крупных генеративных моделей, наша структура облегчает масштабируемый вывод, используя присущие сигналы через итеративные траектории. Этот процесс использует цепные генерации в различных модальностях, где каждый выход служит последующим входом, для улучшения доказательства членства при низком уровне ложноположительных срабатываний. Мы демонстрируем, что запомненные обучающие образцы обладают значительно большей когерентностью и медленнее деградируют во время итеративной регенерации, чем необсуждаемые генерации. Наши результаты показывают, что MADreMIA предоставляет более богатые сигналы для различных моделей и модальностей; мы представляем полные оценки для IAR, диффузионных и языковых моделей, а также предварительные результаты, демонстрирующие ее потенциал для аудиомоделей.

Краткое резюме

Исследование посвящено разработке нового подхода MADreMIA, который улучшает методы выявления членства в генеративных моделях, используя цепные генерации для повышения точности и информативности сигналов о членстве в различных модальностях.

Практический вывод

Новый подход MADreMIA может значительно улучшить возможности аудита конфиденциальности и соблюдения авторских прав в контексте генеративных моделей, особенно в условиях, когда традиционные методы оказываются неэффективными.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. Исследование ограничено тем, что MADreMIA требует наличия цепных генераций, что может быть сложно реализовать для всех типов генеративных моделей, и результаты основаны на предварительных данных, которые требуют дальнейшей проверки.

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Искусственный интеллект
Искусственный интеллект
82%

QVal: Экономичная оценка сигналов плотного контроля для агентов LLM на длинных горизонтах

Агенты LLM все чаще действуют на длинных горизонтах, где одна траектория может содержать сотни или тысячи действий. В таких случаях награды, основанные только на результатах, предоставляют слишком скудные сигналы, не информируя модель о качестве промежуточных действий. Методы плотного контроля旨енты к решению этой проблемы путем оценки промежуточных шагов, начиная от внутренней уверенности и заканчивая самодистилляцией и сходством вложений. Однако обычно эти методы оцениваются путем измерения последующей производительности тренировочного процесса, который интегрирует их. Это дорого, смешивает качество контроля с инженерными факторами обучения и делает различные методологические группы несравнимыми из-за необходимости различных настроек обучения. В результате методы плотного контроля редко проверяются на общем основании. Мы представляем QVal, тестовую платформу без необходимости в обучении для прямой оценки сигналов плотного контроля. Учитывая пару состояние-действие, QVal измеряет, насколько хорошо оценка метода соответствует Q: упорядочивает ли она действия согласно Q-значениям сильной эталонной политики. Это позволяет нам сравнивать сигналы еще до любого запуска обучения и отделять качество сигнала от других инженерных решений. Мы внедрили QVal в виде QVal-v1.0, оценив 21 метод плотного контроля в четырех различных средах и семи методологических группах, проведя более 1,2 тысячи экспериментов по оценке на шести основных моделях с открытыми весами. Мы обнаружили, что простые базовые подходы к подсказкам постоянно превосходят современные методы плотного контроля из литературы, и что производительность сильно кластеризуется по семействам. Эти результаты подтверждаются на различных размерах моделей, средах и модальностях наблюдения. QVal разработан с учетом простоты расширения для новых сред и методов, что позволяет исследователям дорабатывать методы плотного контроля до любого запуска обучения.

Искусственный интеллект
Искусственный интеллект
72%

Выявление скрытых предвзятостей в языковых моделях с помощью дистилляции

Языковые модели, используемые в ситуациях с высокими ставками, могут потенциально благоприятствовать определенным субъектам, брендам или точкам зрения, влияя на решения пользователей в масштабах. Такие предвзятости могут быть внесены любым участником цепочки поставок модели и представляют наибольшую опасность, когда модель проявляет свои предпочтения только по соответствующей теме, оставаясь при этом идентичной своей незамененной базе по всем другим входным данным. Недавние исследования показали, что эти предвзятости могут передаваться через дистилляцию контекста на семантически не связанных данных, сигнал при этом полностью содержится в распределении мягких логитов и остается невидимым для текстовой инспекции. Однако защитник сталкивается с фундаментальной асимметрией: не зная темы предвзятости, ни один метод обнаружения не может надежно выявить скрытую предвзятость, независимо от того, анализирует ли он сгенерированный текст, внутренние представления или веса модели. В этой работе мы представляем метод Distill to Detect (D2D), который выявляет скрытые предвзятости, дистиллируя смещение распределения между подозреваемой моделью и ее базой в картридж (адаптер префикса KV-кэша), концентрируя доминирующее расхождение и усиливая сигнал предвзятости в сгенерированном тексте. Мы показываем, что D2D успешно усиливает скрытые предвзятости скрытых моделей в такой степени, что они могут быть надежно выявлены по нескольким типам предвзятости. Мы также предлагаем теоретическую основу, которая объясняет эффективность D2D через призму проекции логит-распределения, взвешенного по Фишеру, поддерживаемую эмпирическими наблюдениями. Превращая узкое место в возможности адаптеров префиксной настройки в инструмент обнаружения, D2D предоставляет практическую основу для аудита скрытых поведений в развернутых языковых моделях.

Искусственный интеллект
Искусственный интеллект
67%

Starmate: Легковесный ИИ-ассистент для опекунов людей с аутизмом, разработанный и оценённый с использованием ориентированной на пользователя смешанной методологии.

Аутизм и расстройства спектра аутизма (РАС) затрагивают десятки миллионов семей по всему миру, однако родители сталкиваются с обилием, но ненадёжными онлайн-советами и ограниченным доступом к своевременному, сочувственному руководству. Чтобы заполнить этот критический пробел, мы разработали Starmate (http://kefeng.mpu.edu.mo/starmate) — ИИ-ассистент с 1,5 миллиарда параметров, адаптированный для опекунов людей с РАС, используя строгую ориентированную на пользователя смешанную методологию. На основе углублённых интервью и опроса Kano, который выявил «практическое руководство» как необходимое требование для опекунов, мы сконструировали новую модульную архитектуру, интегрирующую анализ настроений, извлечение знаний на основе графов, проверенное экспертами (LightRAG), и модель Qwen2.5-1.5B, специально подстроенную под нашу домен. В слепом сравнении с ведущими коммерческими крупными языковыми моделями, Starmate показал улучшенные результаты по ключевым метрикам в рамках данной оценки (86.76 против 78.43-83.84) и продемонстрировал конкретные преимущества в области эмпатии, практического руководства и логической ясности. Автоматизированное бенчмаркинг также подтвердило эти результаты, с высокими оценками по профессиональной точности (86.18), эмпатии (86.79) и практическому руководству (82.58). Эти результаты демонстрируют техническую возможность легковесной, ориентированной на конфиденциальность, специализированной крупной языковой модели для генерации точных, эмпатичных и действенных ответов в бенчмаркинговых сценариях, создавая основу для будущей реальной пригодности и клинического тестирования.

Искусственный интеллект
Искусственный интеллект
67%

WUSTCA: улучшенная классификация радиочастотных сигналов БПЛА с использованием вейвлет-преобразования и механизмов внимания STCA.

Беспилотные летательные аппараты (БПЛА) играют важную роль в различных гражданских и коммерческих приложениях, что требует точной классификации их радиочастотных (РЧ) сигналов. Современные подходы на основе глубокого обучения сталкиваются с высокой вычислительной сложностью, чувствительностью к шуму и ограниченной точностью. В данной статье предлагается новая структура классификации сигналов БПЛА, которая сочетает в себе вейвлетное извлечение признаков с иерархической архитектурой U-Net, дополненной механизмами внимания с раздельным временем (STCA) и остаточной связанностью. Модель WUSTCA эффективно классифицирует сигналы БПЛА и их контроллеров, достигая средней точности классификации 96,6% для БПЛА и 95,83% для контроллеров БПЛА на наборе данных CardRF. Решая такие проблемы, как помехи шума и разнообразие сигналов, данная работа предоставляет надежное и эффективное решение для классификации сигналов БПЛА, открывая путь для приложений в реальном времени в сложных условиях.

Искусственный интеллект
Искусственный интеллект
67%

Имитационное обучение с критикой языка на основе субоптимальных демонстраций

Предыдущие работы по имитационному обучению на основе субоптимальных демонстраций обычно полагаются на сжатые сигналы супервизии, такие как оценки уверенности, баллы дискриминатора или веса важности. Эти скалярные сигналы имеют свои ограничения, так как не могут явно выразить промежуточные размышления о ходе выполнения задачи, режимах неудачи или корректирующих действиях. Мы предлагаем рамки имитационного обучения с критическим анализом языка, которое вместо этого использует естественный язык в качестве структурированного сигнала супервизии, избегая сворачивания выразительной обратной связи в скаляры. Наш метод сначала создает языковые метки на основе демонстраций, которые явно описывают текущий прогресс, идентифицируют субоптимальное поведение и предоставляют детализированные корректирующие рекомендации. Затем мы вводим функцию потерь критики языка, которая непосредственно обучает политики, используя эти структурированные сигналы, не сводя их к скалярам, и инстанцируем ее для как имитационного клонирования поведения, так и диффузионных политик, получая LC-BC и LC-DP. Мы также предоставляем теоретический результат, показывающий, что предложенная цель обеспечивает верхнюю границу разрыва производительности эксперта при стандартных предположениях. Эмпирически мы проводим оценку на различных задачах непрерывного управления, охватывающих навигацию, манипуляцию и игровую деятельность, где наши методы последовательно превосходят сильные базы имитационного обучения и оффлайн обучения с подкреплением. Эти результаты демонстрируют, что язык может служить мощной и структурированной формой супервизии для обучения устойчивым политикам на основе субоптимальных данных.

Искусственный интеллект
Искусственный интеллект
67%

AutoMem: Автоматизированное изучение памяти как когнитивного навыка

Экспертиза в памяти является приобретенным навыком: знание того, что кодировать, когда извлекать и как организовывать знания — это способность, известная в когнитивной науке как метапамять. Мы применяем эту перспективу к большим языковым моделям (LLMs), рассматривая управление памятью как обучаемый навык. Мы придаем операциям файловой системы статус основных действий памяти наряду с действиями по выполнению задач, позволяя модели самостоятельно решать, как управлять своей памятью. Этот навык памяти улучшается по двум направлениям: структура, которая его поддерживает (подсказки, схемы файлов, словарь действий), и умение модели его применять. Оба направления устойчивы к ручной оптимизации: эпизоды в долгосрочных задачах выполняются на протяжении тысяч шагов, и одна ошибка в памяти может оставаться незамеченной на долгое время, что делает человеческий обзор полных траекторий непрактичным. Мы представляем AutoMem, фреймворк, который автоматизирует оба направления. В первом цикле сильная LLM просматривает полные траектории агента и итеративно пересматривает структуру памяти, которая определяет, как агент взаимодействует со своими файлами памяти. Во втором цикле хорошие решения агента по памяти идентифицируются из множества эпизодов и используются в качестве обучающего сигнала для прямого улучшения мастерства модели в управлении памятью. В трех процедурно сгенерированных долгосрочных играх (Crafter, MiniHack и NetHack) оптимизация памяти отдельно — без изменения поведения модели в действиях по выполнению задач — улучшила производительность базового агента примерно в 2-4 раза, позволив 32B модели с открытыми весами конкурировать с передовыми системами, такими как Claude Opus 4.5 и Gemini 3.1 Pro Thinking. Наши результаты показывают, что управление памятью является независимо обучаемым навыком и представляет собой цель с высоким потенциалом, обеспечивающую значительные улучшения в долгосрочных задачах.