Искусственный интеллектarXivScience Morning3 мин чтенияpreprint
Переосмысленный самообучение: скрытая хрупкость обучения на основе самосгенерированных QA
Self-Study Reconsidered: The Hidden Fragility of Learning from Self-Generated QA
Карточка статьи
Рубрика
Искусственный интеллект
Источник
arXiv
Дата
30.06.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Аннотация
Языковые модели все чаще обучаются с использованием синтетической супервизии вопросов и ответов (QA): модель генерирует вопросы о документе, отвечает на них, используя тот же текст, и полученные пары используются для дообучения, дистилляции или сжатия знаний в другую модель. Мы показываем, что этот этап генерации не является нейтральной предобработкой. Это неявная политика, которая как выбирает, какие доказательства становятся обучающим сигналом, так и решает, как это доказательство будет отвечено, и она хрупка на обоих этапах. При выборе, что спросить, генераторы не обходят документ равномерно. Покрытие быстро достигает насыщения и концентрируется на заметных отрезках, разнообразные подсказки сливаются в одни и те же области, а то, что выглядит достойным вопроса, определяется локальным представлением. В результате заметные артефакты, такие как плохо очищенные разметки, могут захватить генерацию вопросов среди семейств и масштабов моделей. При ответах модель, генерирующая супервизию, склонна подчиняться инструкциям, внедренным в текст. Эта приверженность зависит от намерения и поверхностной формы отрывка, а не от его строгости, и ухудшается при конфликте задач, где более крупные модели подчиняются чаще. Эти режимы сбоев возникают из-за выборов, сделанных во время генерации QA, поэтому их можно сократить, не меняя цикл обучения. Привязка каждого вопроса к фиксированной цели уменьшает предвзятую селекцию, а фильтрация отрывков, похожих на инструкции, перед ответом снижает среднюю степень соблюдения инъекций с $88\%$ до $13\%$ в нашей оценке, сохраняя при этом почти весь чистый текст.
Краткое резюме
Исследование анализирует проблемы, возникающие при обучении языковых моделей на основе самосгенерированных вопросов и ответов (QA). Выявлено, что этап генерации вопросов и ответов является не нейтральным и подвержен различным искажениям, что влияет на качество обучения моделей. В частности, обращено внимание на предвзятость в выборе вопросов и возможность артефактов, которые могут негативно сказаться на генерации QA.
Практический вывод
Для улучшения качества обучения моделей на основе QA важно пересмотреть подходы к генерации вопросов и ответов, минимизировав предвзятость и искажения в процессе. Фильтрация потенциально проблемных отрывков и привязка вопросов к фиксированным целям могут существенно повысить качество результатов.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Исследование фокусируется только на определенных аспектах генерации вопросов и ответов, не учитывая возможные влияние других факторов на модель. Также необходимо учитывать, что выводы сделаны на основе предварительных данных и могут подлежать пересмотру в последующих работах.
Предыдущие работы по имитационному обучению на основе субоптимальных демонстраций обычно полагаются на сжатые сигналы супервизии, такие как оценки уверенности, баллы дискриминатора или веса важности. Эти скалярные сигналы имеют свои ограничения, так как не могут явно выразить промежуточные размышления о ходе выполнения задачи, режимах неудачи или корректирующих действиях. Мы предлагаем рамки имитационного обучения с критическим анализом языка, которое вместо этого использует естественный язык в качестве структурированного сигнала супервизии, избегая сворачивания выразительной обратной связи в скаляры. Наш метод сначала создает языковые метки на основе демонстраций, которые явно описывают текущий прогресс, идентифицируют субоптимальное поведение и предоставляют детализированные корректирующие рекомендации. Затем мы вводим функцию потерь критики языка, которая непосредственно обучает политики, используя эти структурированные сигналы, не сводя их к скалярам, и инстанцируем ее для как имитационного клонирования поведения, так и диффузионных политик, получая LC-BC и LC-DP. Мы также предоставляем теоретический результат, показывающий, что предложенная цель обеспечивает верхнюю границу разрыва производительности эксперта при стандартных предположениях. Эмпирически мы проводим оценку на различных задачах непрерывного управления, охватывающих навигацию, манипуляцию и игровую деятельность, где наши методы последовательно превосходят сильные базы имитационного обучения и оффлайн обучения с подкреплением. Эти результаты демонстрируют, что язык может служить мощной и структурированной формой супервизии для обучения устойчивым политикам на основе субоптимальных данных.
Дизайн вознаграждений остается центральным узким местом для улучшения политики автономных роботов, особенно в задачах манипуляции с длительным горизонтом, где разрозненные метки успеха предоставляют слишком слабый сигнал, а бинарные предпочтения сводят множество конкурирующих представлений о качестве в один неоднозначный сигнал. Мы представляем Метод Обучения Предпочтениям в Произвольной Форме (FPL), который позволяет обучать роботам на основе произвольных человеческих предпочтений. Вместо того чтобы спрашивать аннотаторов, какая из двух траекторий лучше в целом, FPL позволяет им определять оси предпочтений на естественном языке, такие как скорость, безопасность, качество размещения или аккуратность, и предоставлять парные предпочтения вдоль каждой оси. Эти аннотации используются для обучения модели вознаграждения, обусловленной языком, которая преобразует траекторию и метку предпочтения в вознаграждение, специфичное для оси. Мы используем эту модель для обучения политики, обусловленной вознаграждением, которая оптимизирует по нескольким заданным человеком измерениям. В четырех реальных задачах манипуляции и двух смоделированных задачах с длительным горизонтом FPL превосходит методы с разрозненным вознаграждением и бинарными предпочтениями на 38 процентных пунктов. Помимо улучшенной производительности, FPL обучает плотные сигналы прогресса без явной сегментации подтасков, демонстрирует композиционность поведения, отсутствующую в данных, и позволяет пользователям направлять политику к различным видам поведения на этапе тестирования без повторного обучения. Запись в блоге с видео доступна по адресу https://freeform-pl.github.io/fpl.website/
Болезнь Альцгеймера (БА) — это дегенеративное неврологическое заболевание, характеризующееся потерей памяти, ухудшением когнитивных функций и уменьшением объема мозговой ткани. Обнаружить его на ранней стадии сложно из-за вариаций в прогрессировании заболевания и ограниченных возможностей методов нейровизуализации с единственной модальностью. Диагностика болезни Альцгеймера на основе магнитно-резонансной томографии (МРТ) предоставляет дополнительные структурные и функциональные данные, однако существующие методы глубокого обучения часто сталкиваются с проблемами несбалансированности данных, высокой вычислительной сложности и ограниченной обобщаемостью. Для устранения этих пробелов разработана структура извлечения признаков из МРТ на основе EfficientNet для классификации стадий болезни Альцгеймера. EfficientNet, оснащенный комбинированным масштабированием, слоями с разделением по глубине и компонентами сжатием и возбуждением, позволяет точно охарактеризовать корковые структуры и вариации во всем мозге, сохраняя при этом вычислительную эффективность. Извлеченные признаки классифицируются с помощью сети свёрточной многомасштабной внимательной сети на основе сжатия (C-MSACCN), которая объединяет механизмы внимания и стратегии сжатия для повышения точности и снижения сложности модели. Более того, улучшенный оптимизатор соседей клеток (ICNO) тонко настраивает гиперпараметры, находя баланс между исследованием и эксплуатацией для оптимального сходимости и устойчивости. С точностью 99,9%, точностью, полнотой и F1-мерой на наборах данных модель превосходит предыдущие работы. Валидация подтверждает согласованность, а методы визуализации выделяют области, связанные с заболеванием, для предоставления клинической информации.
Определение пола по останкам скелета является ключевым элементом судебной антропологии, при этом череп и таз являются наиболее различимыми по полу элементами с точки зрения морфологии. Традиционные морфометрические подходы, такие как дискриминантный анализ и логистическая регрессия, достигли высокой точности в оценке пола среди различных популяций, включая южноафриканцев. Однако использование машинного обучения (МЛ) для определения пола на основе измерений черепа и таза еще не было исследовано ни в одной южноафриканской популяции. Это исследование оценивало потенциал алгоритмов МЛ для определения пола по черепным и тазовым измерениям, полученным с помощью компьютерной томографии (КТ) современных чернокожих южноафриканцев. В выборку вошли 680 элементов скелета (400 черепов и 280 тазовых костей) с равным распределением мужчин и женщин. КТ-сканы, архивируемые в Отделе радиологии Академической больницы Шарлотты Макеке в Йоханнесбурге, были реконструированы в 3D-модели с помощью программного обеспечения Xiris и IntelliSpace, откуда были собраны восемь черепных и одиннадцать тазовых измерений. Применялись семь классических алгоритмов МЛ, и использовались методы ранжирования признаков для определения наиболее информативных переменных для оценки пола. Затем была разработана модель стекового обучения МЛ, в которую были включены три лучших классификатора в качестве базовых моделей. Их выводы были объединены и переданы различным алгоритмам МЛ, которые выступали в роли мета-обучающих для финальной классификации. Результаты подтвердили сильный половой диморфизм в черепных и тазовых костях, а стековые модели достигли высокой точности (череп: 80,3-94,3%; таз: 86,1-96,1%) по сравнению с традиционными многовариантными методами, демонстрируя потенциал МЛ в судебном определении пола.
Бесконтактное сенсирование на основе информации о состоянии канала Wi-Fi (CSI) продемонстрировало значительный потенциал в распознавании человеческой активности и локализации в помещениях. Однако совместное решение этих двух задач остается сложной задачей, поскольку сырые сигналы CSI, как правило, страдают от высокой размерности каналов, не относящихся к задаче, и временно запутанных многомасштабных флуктуаций. В этой работе предлагается структура двойного обучения, которая акцентирует внимание на конструировании подпространства, согласованного с задачами, и структурированном временном разложении. В частности, разработан модуль многоцелевого переранжированного подпространства главных компонент (MARS-PCA), который переоценивает главные компоненты в соответствии с их дискриминативной значимостью как для распознавания активности, так и для локализации, тем самым сохраняя компактное представление CSI, более соответствующее двойной задаче. Вдобавок, представлен многоуровневый фронтенд с вейвлет-разложением для разделения временных откликов CSI на подполосные компоненты, позволяя более явно представлять динамику, связанную с временной активностью, и относительно стабильные паттерны, связанные с местоположением. Затем уточненные и разложенные характеристики моделируются с помощью легковесного модуля временного предсказания с регуляцией задач по каналам. Эксперименты на публичном наборе данных WiFi CSI показывают, что предложенный метод демонстрирует хорошие результаты как в распознавании активности, так и в indoor локализации.
Квантовые вычисления стали многообещающей вычислительной парадигмой для машинного обучения (МЛ), с потенциалом предложить вычислительные преимущества по сравнению с классическими подходами. На данный момент доказательства, подтверждающие эффективность и преимущества квантовых моделей машинного обучения (QML) по отношению к классическим моделям, недостаточны. Чтобы заполнить этот пробел, в данной работе представлено эмпирическое исследование производительности моделей QML и их классических аналогов. Мы сравниваем семь пар моделей, охватывающих контролируемое обучение и обучение с подкреплением. Наши результаты показывают, что оцениваемые модели квантового машинного обучения пока не превосходят классические эталоны по общей точности прогнозирования, стабильности политики или времени обучения. Тем не менее, QML остается многообещающим подходом для фильтрации шума и контроля ложноположительных срабатываний. Результаты нашего исследования подводят итоги проблемам, с которыми сталкивается квантовое машинное обучение в различных аппаратных средах, эффективности обучения и стабильности сходимости, создавая основу для исследований по устойчивости и оптимизации параметров QML. Эта работа доступна по адресу https://github.com/Z-537-437/QML.