Очищенный OPSD: самодистилляция на основе политики без потери способности мыслить
Purified OPSD: On-Policy Self-Distillation Without Losing How to Think
Карточка статьи
Рубрика
Медицина
Источник
arXiv
Дата
02.07.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Аннотация
Самодистилляция на основе политики (OPSD) стала перспективной парадигмой для улучшения рассуждений больших языковых моделей (LLM), где привилегированный учитель с доступом к эталонным решениям обеспечивает супервизию на уровне токенов по траекториям, создаваемым студентом. Однако мы обнаружили, что OPSD последовательно не справляется с моделями длительного цепочного рассуждения (long-CoT), давая в лучшем случае незначительные улучшения, при этом дестабилизируя способность к рефлективному рассуждению, на которой зависят эти модели. Посредством нового разложения супервизионного сигнала учителя мы выявили коренную причину: супервизия учителя доминируется компонентом, вызванным эталоном, который приводит к механическому запоминанию конкретных коротких путей, в то время как компонент, зависящий от вопроса и передающий выводы, игнорируется или активно противоречит. Основываясь на этой диагнозе, мы предлагаем двухступенчатое решение. Во-первых, мы создаем учителя только на основе эталона (та же модель, закомпонтованная на эталоне без вопроса), чтобы изолировать непередаваемый компонент супервизионного сигнала; остаток после вычитания этого компонента захватывает коррекцию, зависящую от вопроса и передающую вывод. Во-вторых, мы используем точечную взаимную информацию (PMI) как механизм для преобразования этого остатка в хорошо формируемое распределение целевых значений PMI, из которого студент может непосредственно дистиллировать, отфильтровав короткий путь, вызванный эталоном. Эксперименты над четырьмя моделями long-CoT на двух наборах данных показывают постоянные улучшения как по сравнению с базовой моделью, так и со стандартным OPSD, при этом сохраняя естественное эпистемическое поведение моделей на протяжении всего обучения.
Краткое резюме
Статья обсуждает ограниченность метода самодистилляции на основе политики (OPSD) в контексте моделей длительного цепочного рассуждения. Исследование выявляет, что традиционные подходы приводят к механическому запоминанию вместо глубокого понимания. Предложено новое решение для улучшения эффективности дистилляции без потерь в способности к рассуждению.
Практический вывод
Новое подход к самодистилляции может улучшить качество рассуждений больших языковых моделей, помогая избежать запоминания конкретных торных путей и усиливая способность к глубокому анализу.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Исследование не охватывает все возможные модели длинных цепочек рассуждений и может ограничиваться специфическими наборами данных. Необходимы дальнейшие исследования для оценки результатов в других контекстах и с различными типами задач.
Целью настоящего исследования было оценить эффективность обучения на основе симуляции в улучшении возможностей реагирования на неотложные ситуации во время эндоскопической практики. В обучении участвовали врачи, медсестры, лабораторные технологи и клинические инженеры, работающие в отделении эндоскопии. Программа обучения на основе симуляции использовала смоделированные сценарии и проводилась под руководством сертифицированной медсестры по неотложной помощи. Перед началом обучения, сразу после него и через месяц после завершения занятия были проведены тесты на знание. Результаты тестов сравнивались по временным промежуткам и между профессиональными группами. В исследовании приняли участие двадцать два человека (14 врачей, семь медсестер и один лабораторный технолог). Процент правильных ответов улучшился по всем пунктам сразу после обучения по сравнению с результатами до обучения: правильные сжатия груди (< 0,01), препараты для остановки сердца (< 0,01), препараты для лечения анафилаксии (= 0,13), показания к дефибрилляции (< 0,01), местоположение автоматического внешнего дефибриллятора (AED) (= 0,01) и номер телефона службы экстренной помощи (Code Blue) (< 0,01). Однако через месяц после тренировки большинство показателей вернулись к уровням до обучения, за исключением показаний к дефибрилляции и номера телефона службы экстренной помощи. В анализе подгрупп по профессиям, когда сравнивались процент правильных ответов сразу до и сразу после обучения, врачи продемонстрировали значительные улучшения в местоположении AED (= 0,03) и номере телефона Code Blue (< 0,01), тогда как медсестры показали значительное улучшение в использовании препаратов для остановки сердца (= 0,02). Обучение на основе симуляции эффективно для повышения знаний об оказании неотложной помощи в гастроэнтероскопии. Однако может потребоваться повторное или непрерывное обучение для поддержания этих результатов.
Для клинического применения крайне важно, чтобы автоматизированные диагностические системы оставались надежными при столкновении с ранее не виденными случаями. Однако глубокие модели регулярно неверно классифицируют данные вне распределения (OOD) с высокой уверенностью, подчеркивая необходимость более надежных методов детекции OOD. Хотя значительные усилия были направлены на улучшение устойчивости моделей, большинство существующих исследований предполагает сбалансированные наборы данных, оценивает детекцию OOD на грубых или неклинических источниках OOD или недостаточно всесторонне анализирует различные сценарии OOD. Чтобы восполнить эти пробелы, мы предлагаем новую методологию, обученную на разнообразных и несбалансированных медицинских наборах данных и оцененную на клинически репрезентативном спектре OOD. Наша структура включает три ключевых компонента: (1) нелинейный классификатор von Mises-Fisher (NvMF), способный изучать нелинейные границы решений, с теоретическим доказательством его асимптотической связи с косинусными классификаторами; (2) многопрофильная структура, в которой классификаторы NvMF, учитывающие границу, специализируются на разных областях распределения меток для лучшей обработки несбалансированности; и (3) эксперт по выбросам, специально обученный для различения инлайеров и аутлайеров, тем самым укрепляя детекцию OOD. Оценка на наборах данных RFMiD, ISIC2019 и NCTCRC демонстрирует постоянные улучшения по сравнению с передовыми методами, достигая средних уменьшений FPR95 на 8,45%, 13,02% и 36,90% соответственно. Эти достижения дополнительно поддерживаются всесторонними абляциями, которые подтвердили вклад каждого компонента. Это позволяет надежно идентифицировать незнакомые случаи для передачи клиницистам, поддерживая более безопасную диагностику с использованием искусственного интеллекта в реальных рабочих процессах. Наш код доступен по адресу https://github.com/redboxup/MARVEL.
Точная и децентрализованная количественная оценка серотонина, также известного как 5-гидрокситриптамин (5-HT), в биологических жидкостях имеет критическое значение для диагностики, прогноза и терапевтического мониторинга неврологических и психиатрических расстройств. Однако традиционные аналитические методы обычно зависят от централизованной лабораторной инфраструктуры, квалифицированного персонала и трудоемкой обработки образцов, что ограничивает их применение в условиях быстрой диагностики у пациентов и в пунктах ухода за здоровьем. В данной работе мы представляем портативную электрохимическую платформу на основе молекулярно-импринтированного полимера (MIP) для селективного и непосредственного детектирования серотонина с использованием экранно-печатных углеродных электродов (SPCEs). Биомиметический распознающий интерфейс был создан посредством прямой электрополимеризации полидопамина в присутствии серотонина в качестве шаблонной молекулы, после чего производилась экстракция шаблона для получения комплементарных распознающих полостей для селективного связывания. Параметры изготовления сенсора, включая концентрацию мономера, циклы электрополимеризации, стехиометрию шаблона к мономеру и pH электролита, были систематически оптимизированы для достижения улучшенной чувствительности, селективности и стабильности сигнала. В условиях оптимизации сенсор MIP/SPCE продемонстрировал широкую линейную зависимость от 10 пМ до 10 мкМ в буфере фосфата, с коэффициентом корреляции R2 = 0.974 и ультравысоким пределом обнаружения 0.16 пМ. Аналитическая применимость платформы была дополнительно подтверждена в поддельной искусственной сыворотке, где сенсор достиг предела обнаружения 0.12 пМ, удовлетворительных значений восстановления от 88.66% до 96.02%, и приемлемой точности с относительными стандартными отклонениями (RSD) [≤] 8.43% (n=3), подтверждая ее надежность в сложной биологической матрице. Разработанный сенсор продемонстрировал отличную селективность к серотонину по сравнению с физиологически значимыми интерферентами, сохраняя удержание сигнала в диапазоне от 99% до 101%. Кроме того, платформа показала высокую операционную повторяемость с RSD 0.45%, хорошую межэлектродную воспроизводимость с RSD 6.3%, и стабильность при длительном хранении, сохраняя от 90% до 110% своего начального ответа в течение 28 дней. Важно отметить, что кросс-платформенная валидация с использованием потенциостата, подключенного к смартфону, продемонстрировала сильное аналитическое согласие с лабораторной техникой, о чем свидетельствует R2 = 0.9967 и наклон 1.023. Эти результаты устанавливают предложенную платформу MIP/SPCE как простое, недорогое, портативное и совместимое со смартфоном электрохимическое устройство для полевого мониторинга серотонина в клинически значимых образцах.
Дети с болезнью Крона (БК), у которых развиваются внутренние проникающие осложнения (ИПО; абсцессы и воспалительные массы), находятся в группе высокого риска хирургического вмешательства и других неблагоприятных событий. Ранняя терапия с использованием анти- фактора некроза опухолей (анти-TNF) улучшает результаты лечения среди детей с БК, а начало терапии анти-TNF вскоре после разрешения ИПО снижает риск хирургического вмешательства. Мы поставили себе цель оценить безопасность и эффективность ранней терапии анти-TNF среди детей, госпитализированных с активными ИПО. Мы провели многоцентровое ретроспективное исследование детей (в возрасте ≥6 лет), диагностированных с ИПО в период с 2007 по 2021 год. Воздействием была терапия анти-TNF в течение 30 дней после диагностики ИПО. Результаты включали 1) инфекционные серьезные нежелательные события (iSAE) в течение 90 дней, 2) неинфекционные серьезные нежелательные события, связанные с БК (cdSAE), 3) операции, связанные с БК, и 4) комбинированную клиническую, биохимическую и свободную от кортикостероидов ремиссию в течение 1 года. Результаты сравнивались с использованием взвешенных кривых Каплана-Мейера по вероятности лечения (тест логранга) и моделей пропорциональных рисков Кокса, стратифицированных по статусу перкутанной дренажной процедуры (PD). Среди 203 пациентов (медиана возраста 16 лет, 50% женщины) 87 (43%) получили раннюю терапию анти-TNF в течение 30 дней после диагностики ИПО. В анализах Кокса ранняя терапия анти-TNF не была связана с iSAE, cdSAE или оперативными вмешательствами, но была связана с увеличением комбинированной клинической, биохимической и свободной от кортикостероидов ремиссии (HR 1.65, 95%CI 1.20, 2.27). Тем не менее, риск хирургического вмешательства различался в зависимости от статуса PD: пациенты, получившие раннюю терапию анти-TNF и PD, имели более низкий риск по сравнению с PD только (выживаемость без событий 58% против 15%, P=0.04 по логрангу). Ранняя терапия анти-TNF у детей с ИПО не была связана с iSAE или cdSAE. Особенно важно, что у тех, кто проходил PD, ранняя терапия анти-TNF была связана со снижением числа операций. Эти результаты подтверждают необходимость начала ранней терапии анти-TNF в рамках многопрофильного подхода к лечению. Необходимы проспективные исследования с стандартизированными протоколами лечения.
Медицинские тесты с выбором ответов становятся все более переполненными, и недавние оценки на основе рубрик, такие как HealthBench, показали, что открытая клиническая оценка далека от решения: максимальный балл в ее "Сложной" подгруппе составляет всего 32%. Мы представляем небольшой, специально сложный набор оценочных данных из пяти клинических сценариев, составленных врачами, охватывающих четыре специальности (анестезиология, внутренние/семейная медицина, неотложная медицина и акушерство), каждый из которых сопровождается атомарной, взвешенной, MECE рубрикой (от 25 до 62 критериев на задачу, всего 184 критерия), составленной на основании золотого ответа, подготовленного врачом. Мы оценили три передовые модели: GPT 5.4, Claude Opus 4.7 и Gemini 3.1 Pro. Средние показатели прохождения рубрики составили 0.47 (Claude), 0.39 (GPT) и 0.37 (Gemini). Центральный вывод заключается в инверсии клинического приоритета: наиболее важные (вес-5, критически важные) критерии были выполнены всего на 32.4-41.7%, в то время как менее значимые критерии с весом-1 прошли с результатом 80-90%. 56 из 108 критически важных (вес-5) критериев (52%) не были выполнены ни одной моделью. Три авторегистраторы LLM воспроизвели метки экспертов (выполнено/не выполнено) в 92.8-94.7% из 552 оцененных критериев. Мы рассматриваем это как вклад в методы и предварительные результаты: пять задач демонстрируют масштабируемый, обоснованный процесс, готовый к развитию в крупномасштабный эталон.
Фиброаденома груди (ФА) и опухоль Филлоидов (ОФ) — это фиброэпителиальные поражения груди с высоко перекрывающимися проявлениями на ультразвуковых изображениях, что делает доброкачественные и пограничные ОФ подверженными ошибочной классификации как ФА, осложняя предоперационное принятие решений. Существующие методы компьютерной помощи в диагностике обычно основываются на однородных изображениях и недостаточно используют дополнительные клинические и текстовые данные. Чтобы решить эту проблему, мы разработали набор данных FAPT-M, состоящий из 910 пациентов с строго проверенными ультразвуковыми изображениями, структурированными клиническими атрибутами и описаниями ультразвуковой диагностики. На основе этого набора данных мы предлагаем клинически ориентированную мультимодальную структуру, которая объединяет визуальное кодирование на основе DenseNet, текстовое кодирование, вдохновленное CLIP, и легковесное клиническое кодирование, а также вводит адаптивную модуляцию с учетом клинических данных, фузию между модальностями с помощью Transformers и обучение представления с двойным путем для улучшения согласования признаков и взаимодействия между модальностями. В рамках пятирубцовой перекрестной проверки на уровне пациентов предлагаемый метод достигает точности 77,64%, F1-оценки 73,38% и AUC 89,74%, что превосходит представительные эталонные методы на базе CNN, Transformers и визуально-языковых моделей. Исследования по абляции и оценки с учетом классов дополнительно подтверждают вклад фузии трех модальностей и ключевые архитектурные компоненты. В целом, эта работа предоставляет эффективный мультимодальный подход для детальной классификации ФА и ОФ и устанавливает высококачественный эталон для мультимодального анализа ультразвука молочной железы.