Сравнение языковых моделей на основе рубрик в задачах клинического мышления, созданных экспертами
A rubric-based controlled comparison of frontier language models on expert-authored clinical reasoning tasks
Карточка статьи
Рубрика
Медицина
Источник
arXiv
Дата
02.07.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Аннотация
Медицинские тесты с выбором ответов становятся все более переполненными, и недавние оценки на основе рубрик, такие как HealthBench, показали, что открытая клиническая оценка далека от решения: максимальный балл в ее "Сложной" подгруппе составляет всего 32%. Мы представляем небольшой, специально сложный набор оценочных данных из пяти клинических сценариев, составленных врачами, охватывающих четыре специальности (анестезиология, внутренние/семейная медицина, неотложная медицина и акушерство), каждый из которых сопровождается атомарной, взвешенной, MECE рубрикой (от 25 до 62 критериев на задачу, всего 184 критерия), составленной на основании золотого ответа, подготовленного врачом. Мы оценили три передовые модели: GPT 5.4, Claude Opus 4.7 и Gemini 3.1 Pro. Средние показатели прохождения рубрики составили 0.47 (Claude), 0.39 (GPT) и 0.37 (Gemini). Центральный вывод заключается в инверсии клинического приоритета: наиболее важные (вес-5, критически важные) критерии были выполнены всего на 32.4-41.7%, в то время как менее значимые критерии с весом-1 прошли с результатом 80-90%. 56 из 108 критически важных (вес-5) критериев (52%) не были выполнены ни одной моделью. Три авторегистраторы LLM воспроизвели метки экспертов (выполнено/не выполнено) в 92.8-94.7% из 552 оцененных критериев. Мы рассматриваем это как вклад в методы и предварительные результаты: пять задач демонстрируют масштабируемый, обоснованный процесс, готовый к развитию в крупномасштабный эталон.
Краткое резюме
В исследовании было представлено сложное оценочное поле для клинического мышления, оцененное с использованием трех передовых языковых моделей. Наибольшее внимание уделили недостаточному выполнению критически важных критериев, в то время как менее значимые критерии оценивались значительно лучше.
Практический вывод
Данное исследование подчеркивает существующие проблемы в оценке клинического мышления по использованию языковых моделей и необходимость более строгих критериев для достижения высоких результатов.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Основные ограничения исследования включают небольшой объем оценочного набора данных и возможность недовыявления всех важных аспектов клинического мышления на основе существующих критериев.
Острые вирусные респираторные инфекции (ОВРИ) являются одной из основных причин госпитализации и смертности во всем мире, однако рандомизированные клинические испытания в этой области сталкиваются с серьезными трудностями в выборе эффективных и клинически значимых первичных конечных точек. Смертность часто слишком редка, чтобы служить осуществимой первичной конечной точкой. Было предложено несколько альтернативных подходов, включая.ordinal шкалы, конечные точки «время до события», составные исходы на основе выздоровления и продольныеOrdinal модели. Однако их сравнительные операционные характеристики в условиях реалистичных курсов ОВРИ пока недостаточно изучены. Мы описываем симуляционное исследование для сравнения уровня I ошибки и мощности широко используемых и недавно предложенных конечных точек и стратегий анализа для двухгрупповых рандомизированных испытаний среди госпитализированных участников с ОВРИ. Данные будут генерироваться по нескольким механизмам, направленным на имитацию правдоподобных траекторий участников, включая латентный процесс Брауна, процесс первого порядка ординальной марки, латентный процесс повторных событий с ослаблением и повторную выборку индивидуальных данных участников из испытания ACTT-2. Смоделированные результаты будут использовать ординальные шкалы тяжести с 4-, 6- и 8 уровнями и будут отражать популяции умеренно и тяжело больных, сроки наблюдения в 28 или 60 дней, различные эффекты лечения и размеры выборки. Сравниваемые методы включают модели перехода ординальных состояний Маркова, модели пропорциональных шансов в фиксированную точку времени, анализы по шкале дней до выздоровления, модели Кокса для конечных точек «время до события», логистическую регрессию для бинарных конечных точек, обобщенные парные сравнения для иерархических составных исходов и t-тесты для дней жизни и выписки из больницы. Это исследование предоставит систематическое сравнение определений конечных точек и методов анализа для испытаний на ОВРИ при клинически обоснованных механизмах генерации данных. Результаты направлены на информирование выбора осуществимых, интерпретируемых и статистически эффективных стратегий первичного анализа для будущих клинических испытаний при вирусных респираторных заболеваниях.
Международный травматический опросник (ITQ) — это широко используемый инструмент для измерения посттравматического стрессового расстройства (ПТСР) и сложного ПТСР (СПТСР) согласно 11-й редакции Международной статистической классификации болезней (ICD-11), который позволяет оценивать распространенность этих расстройств как в генеральной популяции, так и в клинических выборках. В связи с опасениями, связанными с использованием самоотчетных мер, авторы оригинальной версии ввели концепцию 'клинических проверок', которые добавлены в новой версии для обеспечения отражения первоначальных ответов клинического смысла элементов шкалы. Поскольку эта концепция новая и требует тестирования в различных культурных условиях, целью данного исследования было измерить и сравнить распространенность вероятного ПТСР и СПТСР в репрезентативной выборке поляков с использованием новой версии ITQ (ITQ-CC) и оригинальной версии. Мы собрали данные от репрезентативной выборки взрослых из Польши (n=1,816) через интернет-панель. Сравнение результатов, полученных с использованием ITQ и ITQ-CC, показало, что количество индивидуальных симптому снизилось на 18,9% — 41,6%. Оценки распространенности расстройства без клинических проверок составили 5,3% для ПТСР и 6,1% для СПТСР. Эти оценки снизились до 2,4% для ПТСР и до 3,5% для СПТСР при использовании клинических проверок; таким образом, относительное снижение составило 55,7% для ПТСР и 48,7% для СПТСР, что в результате дало общий относительный уровень снижения 48,8%. Результаты исследования указывают на значительное влияние клинических проверок на скрининг посттравматических симптомов. Это привело к значительному снижению оценок распространенности ПТСР и СПТСР.
Эффективная диагностика заболеваний мозга требует синергии паттернов подключения мозга и высокоуровневых семантических знаний. Однако существующие методы в значительной степени рассматривают семантику из крупных языковых моделей (LLMs) как вспомогательные признаки или руководство, что ограничивает их прямую роль в принятии решений и сужает стабильность и надежность классификации. Чтобы преодолеть это, мы предлагаем фреймворк семантически согласованной нейросети мозга, который активно интегрирует семантику, полученную от LLM, в процесс предсказания. В частности, семантика на уровне ROI сначала включается через глобальное самообращение для обогащения представлений узлов и предоставления контекста всего мозга. Затем строятся многомасштабные гиперграфы для явного моделирования функциональных подсетей и взаимодействий между несколькими ROI, что решает локальные ограничения традиционных ГНН и захватывает высокопорядковые зависимости. Наконец, механизм семантической согласованности на уровне принятия решений избирательно вводит текстовые вложения, специфичные для пациента, в графовые представления, позволяя семантике напрямую управлять предсказаниями без нарушения глубинной структуры сети. Эксперименты на публичных наборах данных сети мозга ABIDE и ADHD-200 демонстрируют состояние искусства, повышенную стабильность и улучшенную интерпретируемость, особенно в условиях небольших выборок.
Самодистилляция на основе политики (OPSD) стала перспективной парадигмой для улучшения рассуждений больших языковых моделей (LLM), где привилегированный учитель с доступом к эталонным решениям обеспечивает супервизию на уровне токенов по траекториям, создаваемым студентом. Однако мы обнаружили, что OPSD последовательно не справляется с моделями длительного цепочного рассуждения (long-CoT), давая в лучшем случае незначительные улучшения, при этом дестабилизируя способность к рефлективному рассуждению, на которой зависят эти модели. Посредством нового разложения супервизионного сигнала учителя мы выявили коренную причину: супервизия учителя доминируется компонентом, вызванным эталоном, который приводит к механическому запоминанию конкретных коротких путей, в то время как компонент, зависящий от вопроса и передающий выводы, игнорируется или активно противоречит. Основываясь на этой диагнозе, мы предлагаем двухступенчатое решение. Во-первых, мы создаем учителя только на основе эталона (та же модель, закомпонтованная на эталоне без вопроса), чтобы изолировать непередаваемый компонент супервизионного сигнала; остаток после вычитания этого компонента захватывает коррекцию, зависящую от вопроса и передающую вывод. Во-вторых, мы используем точечную взаимную информацию (PMI) как механизм для преобразования этого остатка в хорошо формируемое распределение целевых значений PMI, из которого студент может непосредственно дистиллировать, отфильтровав короткий путь, вызванный эталоном. Эксперименты над четырьмя моделями long-CoT на двух наборах данных показывают постоянные улучшения как по сравнению с базовой моделью, так и со стандартным OPSD, при этом сохраняя естественное эпистемическое поведение моделей на протяжении всего обучения.
Для клинического применения крайне важно, чтобы автоматизированные диагностические системы оставались надежными при столкновении с ранее не виденными случаями. Однако глубокие модели регулярно неверно классифицируют данные вне распределения (OOD) с высокой уверенностью, подчеркивая необходимость более надежных методов детекции OOD. Хотя значительные усилия были направлены на улучшение устойчивости моделей, большинство существующих исследований предполагает сбалансированные наборы данных, оценивает детекцию OOD на грубых или неклинических источниках OOD или недостаточно всесторонне анализирует различные сценарии OOD. Чтобы восполнить эти пробелы, мы предлагаем новую методологию, обученную на разнообразных и несбалансированных медицинских наборах данных и оцененную на клинически репрезентативном спектре OOD. Наша структура включает три ключевых компонента: (1) нелинейный классификатор von Mises-Fisher (NvMF), способный изучать нелинейные границы решений, с теоретическим доказательством его асимптотической связи с косинусными классификаторами; (2) многопрофильная структура, в которой классификаторы NvMF, учитывающие границу, специализируются на разных областях распределения меток для лучшей обработки несбалансированности; и (3) эксперт по выбросам, специально обученный для различения инлайеров и аутлайеров, тем самым укрепляя детекцию OOD. Оценка на наборах данных RFMiD, ISIC2019 и NCTCRC демонстрирует постоянные улучшения по сравнению с передовыми методами, достигая средних уменьшений FPR95 на 8,45%, 13,02% и 36,90% соответственно. Эти достижения дополнительно поддерживаются всесторонними абляциями, которые подтвердили вклад каждого компонента. Это позволяет надежно идентифицировать незнакомые случаи для передачи клиницистам, поддерживая более безопасную диагностику с использованием искусственного интеллекта в реальных рабочих процессах. Наш код доступен по адресу https://github.com/redboxup/MARVEL.
Исследования внешней валидации имеют конечный размер выборки, что создает неопределенность относительно того, превышает ли чистая выгода (ЧВ) модели прогнозирования ЧВ базовых стратегий. Ожидаемая цена идеальной информации (ОПИ) quantifies последствия неопределенности. Текущие методы ОПИ фокусируются на одиночных исследованиях, игнорируя гетерогенность между центрами. Мы расширяем ОПИ и ожидаемую цену частичной идеальной информации (ОПЧИ), чтобы учесть гетерогенность между кластерами в многокцентровых исследованиях и метаанализах. Мы различаем глобальную и локальную оптимальную стратегию, а также наблюдаемые и ненаблюдаемые кластеры. Мы определяем ОПИглобальная, ОПИкластер_j, ОПИкластер и ОПЧИкластер,преобладание, реализованные в R-пакете MetaNB, и иллюстрируем их с помощью систематического обзора, проведенного в 36 центрах, по модели ADNEX для диагностики рака яичников. Предполагая одно глобальное решение по принятию ADNEX, нет необходимости в дополнительных данных для подтверждения, что ADNEX является превосходящим в целом (ОПИглобальная 0). Метаанализ заимствует информацию из наблюдаемых кластеров, что приводит к последовательному локальному превосходству ADNEX и ненулевому, но обычно более низкому ОПИкластер_j, чем при учете только локальных данных. Вероятность того, что базовые стратегии превосходят в ненаблюдаемых центрах, составляет 0.03. Устранение неопределенности в производительности и преобладании в каждом кластерном (ОПИкластер) дало бы 1134 чистых избегнутых ложноположительных результатов (ЛП) в год, предполагая 350000 опухолей ежегодно с 20% злокачественностей. Определение только локального преобладания с уверенностью (ОПЧИкластер, преобладание) дало бы 158 чистых избегнутых ЛП в год. Расширения ОПИ распутывают источники неопределенности и количественно оценивают необходимость дальнейшей валидации для определения глобальной или локально оптимальной стратегии. Учет неопределенности и гетерогенности в клинической полезности между кластерами имеет решающее значение для принятия решения о необходимости дополнительных валидационных исследований.