МедицинаarXivScience Morning3 мин чтенияpreprint

MARVEL: Обучение экспертов на основе маржинальной устойчивости для обнаружения выбросов с длинным хвостом

MARVEL: Margin-Aware Robust von Mises-Fischer Expert Learning for Long-Tailed Out-of-Distribution Detection

Рубрика
Медицина
Источник
arXiv
Дата
02.07.2026
Автор
Science Morning
Время чтения
3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Медицина

Краткое резюме

Данная работа представляет новую методологию для обнаружения выбросов в медицинских данных, которая демонстрирует значительные улучшения по сравнению с существующими подходами, особенно в условиях несбалансированных наборов данных.

Практический вывод

Метод MARVEL позволяет надежно обнаруживать незнакомые медицинские случаи, что может повысить безопасность клинических диагнозов, помогая врачам в принятии решений.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. В работе не рассматриваются все возможные сценарии OOD и влияние на более сложные медицинские задачи, что может ограничить универсальность предложенного метода.

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Медицина
Медицина
82%

Очищенный OPSD: самодистилляция на основе политики без потери способности мыслить

Самодистилляция на основе политики (OPSD) стала перспективной парадигмой для улучшения рассуждений больших языковых моделей (LLM), где привилегированный учитель с доступом к эталонным решениям обеспечивает супервизию на уровне токенов по траекториям, создаваемым студентом. Однако мы обнаружили, что OPSD последовательно не справляется с моделями длительного цепочного рассуждения (long-CoT), давая в лучшем случае незначительные улучшения, при этом дестабилизируя способность к рефлективному рассуждению, на которой зависят эти модели. Посредством нового разложения супервизионного сигнала учителя мы выявили коренную причину: супервизия учителя доминируется компонентом, вызванным эталоном, который приводит к механическому запоминанию конкретных коротких путей, в то время как компонент, зависящий от вопроса и передающий выводы, игнорируется или активно противоречит. Основываясь на этой диагнозе, мы предлагаем двухступенчатое решение. Во-первых, мы создаем учителя только на основе эталона (та же модель, закомпонтованная на эталоне без вопроса), чтобы изолировать непередаваемый компонент супервизионного сигнала; остаток после вычитания этого компонента захватывает коррекцию, зависящую от вопроса и передающую вывод. Во-вторых, мы используем точечную взаимную информацию (PMI) как механизм для преобразования этого остатка в хорошо формируемое распределение целевых значений PMI, из которого студент может непосредственно дистиллировать, отфильтровав короткий путь, вызванный эталоном. Эксперименты над четырьмя моделями long-CoT на двух наборах данных показывают постоянные улучшения как по сравнению с базовой моделью, так и со стандартным OPSD, при этом сохраняя естественное эпистемическое поведение моделей на протяжении всего обучения.

Медицина
Медицина
72%

Сравнение языковых моделей на основе рубрик в задачах клинического мышления, созданных экспертами

Медицинские тесты с выбором ответов становятся все более переполненными, и недавние оценки на основе рубрик, такие как HealthBench, показали, что открытая клиническая оценка далека от решения: максимальный балл в ее "Сложной" подгруппе составляет всего 32%. Мы представляем небольшой, специально сложный набор оценочных данных из пяти клинических сценариев, составленных врачами, охватывающих четыре специальности (анестезиология, внутренние/семейная медицина, неотложная медицина и акушерство), каждый из которых сопровождается атомарной, взвешенной, MECE рубрикой (от 25 до 62 критериев на задачу, всего 184 критерия), составленной на основании золотого ответа, подготовленного врачом. Мы оценили три передовые модели: GPT 5.4, Claude Opus 4.7 и Gemini 3.1 Pro. Средние показатели прохождения рубрики составили 0.47 (Claude), 0.39 (GPT) и 0.37 (Gemini). Центральный вывод заключается в инверсии клинического приоритета: наиболее важные (вес-5, критически важные) критерии были выполнены всего на 32.4-41.7%, в то время как менее значимые критерии с весом-1 прошли с результатом 80-90%. 56 из 108 критически важных (вес-5) критериев (52%) не были выполнены ни одной моделью. Три авторегистраторы LLM воспроизвели метки экспертов (выполнено/не выполнено) в 92.8-94.7% из 552 оцененных критериев. Мы рассматриваем это как вклад в методы и предварительные результаты: пять задач демонстрируют масштабируемый, обоснованный процесс, готовый к развитию в крупномасштабный эталон.

Медицина
Медицина
72%

Предсказание ранних стадий болезни Альцгеймера и выявление ключевых биомаркеров с использованием глубоких искусственных нейронных сетей и ансамбля методологий машинного обучения

Болезнь Альцгеймера (БА) – это расстройство мозга, которое развивается медленно и в основном затрагивает память, мышление, язык и повседневную деятельность. Это одно из самых распространенных причин деменции и создает множество трудностей как для пациентов, так и для их семей. На ранней стадии симптомы часто слабо выражены и могут напоминать нормальное старение. По этой причине многие люди получают диагноз слишком поздно, когда болезнь уже прогрессирует. В настоящее время полного лекарства от БА не существует. Тем не менее, ранняя диагностика может помочь врачам лучше управлять состоянием пациента и предпринять необходимые шаги вовремя. В этом исследовании предлагается модель машинного обучения для определения ранних стадий болезни Альцгеймера на основе клинических данных, результатов нейропсихологических тестов и мер, связанных с нейровизуализацией. Данные, использованные в работе, собраны из Инициативы по нейровизуализации болезни Альцгеймера (ADNI). Поскольку в наборе данных есть пропущенные значения, применяется итеративная импутация для их заполнения. Набор данных также имеет несбалансированные классы, что решается с помощью метода Borderline SVM-SMOTE. Затем проводится отбор признаков с использованием оберток и встраиваемых методов, чтобы использовать только важные признаки для обучения. Выбранные признаки делятся на обучающие и тестовые наборы, и применяется масштабирование признаков. Разрабатывается ансамблевая модель стекового обучения с использованием логистической регрессии, Extra Trees, Bagging KNN и LightGBM в качестве базовых классификаторов. Кроме того, также обучается искусственная нейронная сеть на том же наборе данных. Эффективность этих моделей сравнивается по таким метрикам, как точность, полнота, F1-меры и AUC-ROC. Цель этого исследования состоит в том, чтобы найти лучший классификатор и выявить важные биомаркеры, которые могут помочь в ранней диагностике болезни Альцгеймера.

Медицина
Медицина
72%

Полное байесовское обучение с подкреплением с помощью LF-IBIS

Обучение с подкреплением (RL) — это метод принятия решений в последовательных задачах, при котором агент обучается оптимальным политикам через взаимодействие с окружающей средой, максимизируя кумулятивные вознаграждения. Среди методов RL байесовское обучение с подкреплением (BRL) решает распространенные практические задачи, связанные с нехваткой данных, используя предварительные знания об окружении и последовательные обновления убеждений. Тем не менее, большинство подходов BRL требуют явной функции правдоподобия, которая часто недоступна или сложна для решения в реальных условиях. Мы предлагаем алгоритм, не требующий вычисления правдоподобия, — Итеративная Выборка Параметров Важности без Явного Правдоподобия (LF-IBIS), который обновляет убеждения агента в режиме онлайн по мере появления новых взаимодействий. Сочетая приближенные байесовские вычисления с итеративной выборкой параметров важности, LF-IBIS позволяет проводить полное байесовское вывод в условиях, когда динамика окружения не описана явным или управляемым правдоподобием. Метод предоставляет приближенные постериорные распределения как для параметров окружения, так и для оптимальных политик, обеспечивая количественную оценку неопределенности политики, что полезно для байесовского анализа компромисса между исследованием и эксплуатацией. Мы тестируем метод на симуляционном исследовании адаптивной рандомизации в клинических испытаниях, где закрытые формы постериоров позволяют провести валидацию. Дополнительные эксперименты рассматривают ситуации, когда постериор не имеет закрытой формы, и демонстрируют онлайн-обновление политики на основе постериорного распределения оптимальной политики.

Медицина
Медицина
67%

Клинические результаты после неудачной эндоскопической деторсии сигмовидной кишки: одноцентровое ретроспективное когортное исследование.

Эндоскопическая деторсия является основным методом лечения сигмовидной вирулентности (СВ); однако, деторсия не всегда бывает успешной. Мы оценили клинические результаты после неудачной эндоскопической деторсии и проанализировали рецидивы у пациентов, которые достигли клинического успеха после декомпрессии. Это одноцентровое ретроспективное когортное исследование включало 47 пациентов с первым эпизодом СВ, из которых 43 прошли эндоскопическое лечение. Базовые характеристики и краткосрочные исходы сравнивались между группами успешной и неудачной деторсии. Среди пациентов с клиническим успехом в больничном курсе и 1-летней кумулятивной рецидивности сравнивались группы успешной деторсии и успешной декомпрессии. Кумулятивный рецидив оценивался с использованием метода Каплан-Meier. Успешная деторсия была достигнута у 21 из 43 пациентов (48,8%). Среди 22 пациентов с неудачной деторсией 17 достигли клинического успеха после декомпрессии, в то время как пять имели клиническую неудачу, в том числе четверо, которым была проведена экстренная операция, и один, кто умер на следующий день. Общий уровень клинического успеха составил 88,4% (38/43). Неудачная деторсия была связана с более низким уровнем насыщения кислородом в воздухе и более высокими уровнями лактата. Клинический успех встречался реже в группе неудачной деторсии (77,3% против 100%, p=0,065), а время пребывания в больнице было длиннее (медиана 13 против 7 дней, p=0,071). Среди пациентов с клиническим успехом время до возобновления перорального питания было короче в группе успешной деторсии (медиана 1,5 против 3 дней, p=0,004), в то время как 1-летняя кумулятивная частота рецидивов была численно выше, но статистически незначительна (79,6% против 51,3%, log-rank=0,087). После оценки необходимости экстренной операции, декомпрессия как таковая может не всегда требовать немедленной повторной деторсии у выбранных пациентов, которые клинически улучшаются.

Медицина
Медицина
67%

Формирование профессиональной идентичности среди участников долгосрочной педиатрической программы для студентов медицинских вузов на последнем курсе: качественное исследование.

Цель данного исследования — исследовать аспекты формирования профессиональной идентичности у участников долгосрочной педиатрической программы для студентов медицинских вузов США на последнем курсе обучения. Многие образовательные учреждения предлагают курсы, специфичные для специальности, сосредоточенные на переходе к резидентуре, обычно в конце медицинской школы. Это исследование направлено на изучение формирования профессиональной идентичности среди участников долгосрочной программы, сосредоточенной на педиатрии, для студентов четвертого года обучения. Авторы использовали дизайн случая для качественного исследования, применяя полуструктурированные вопросы интервью на основе концептуальной модели формирования профессиональной идентичности. Они выбрали участников исследования с помощью целевого отбора, случайным образом отобрав студентов, завершивших программу с 2019 по 2021 год. Трое интервьюеров независимо провели интервью с отдельными участниками программы. Для анализа данных использовалась тематическая аналитика с проверкой надежности кодеров; двое исследователей независимо кодировали и проводили проверку межрейтинговой согласованности (IRR) по трем наборам вопросов из стенограммы. После того как была обеспечена приемлемая IRR, исследователи закодировали оставшиеся вопросы и затем определили темы и подтемы. Интервью завершили одиннадцать бывших студентов. После первого независимого кодирования, IRR для трех вопросов составило 80%. После кодирования 11 интервью исследователи определили, что достигнута насыщенность кодов. Они затем выявили шесть основных тем: развитие карьеры, межличностные связи, личностный рост, положительные ролевые модели, развитие навыков и поддерживающая учебная среда. Две пересекающиеся темы были признаны на протяжении всего исследования: чувство принадлежности и уверенность в себе перед началом резидентуры. Участники долгосрочной программы, специфичной для специальности, в последний год медицинской школы испытывали формирование профессиональной идентичности через поддерживающую учебную среду, способствующую связям и личностному росту, в то время как они развивали навыки, окруженные положительными ролевыми моделями. Это сообщество практики развивало чувство принадлежности и помогало участникам повысить уверенность перед резидентурой и карьерой. Такой долгосрочный, специфичный для специальности подход к последнему году медицинской школы может улучшить формирование профессиональной идентичности для студентов, поступающих на все специальности, и помочь в переходе к интернатуре.