МедицинаarXivScience Morning3 мин чтенияpreprint

Анализ стоимости информации для внешней валидации моделей прогнозирования рисков в многокцентровых исследованиях и систематических обзорах

Value-of-Information Analysis for External Validation of Risk Prediction Models in Multicenter Studies and Systematic Reviews

Рубрика
Медицина
Источник
arXiv
Дата
02.07.2026
Автор
Science Morning
Время чтения
3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Медицина

Аннотация

Исследования внешней валидации имеют конечный размер выборки, что создает неопределенность относительно того, превышает ли чистая выгода (ЧВ) модели прогнозирования ЧВ базовых стратегий. Ожидаемая цена идеальной информации (ОПИ) quantifies последствия неопределенности. Текущие методы ОПИ фокусируются на одиночных исследованиях, игнорируя гетерогенность между центрами. Мы расширяем ОПИ и ожидаемую цену частичной идеальной информации (ОПЧИ), чтобы учесть гетерогенность между кластерами в многокцентровых исследованиях и метаанализах. Мы различаем глобальную и локальную оптимальную стратегию, а также наблюдаемые и ненаблюдаемые кластеры. Мы определяем ОПИглобальная, ОПИкластер_j, ОПИкластер и ОПЧИкластер,преобладание, реализованные в R-пакете MetaNB, и иллюстрируем их с помощью систематического обзора, проведенного в 36 центрах, по модели ADNEX для диагностики рака яичников. Предполагая одно глобальное решение по принятию ADNEX, нет необходимости в дополнительных данных для подтверждения, что ADNEX является превосходящим в целом (ОПИглобальная 0). Метаанализ заимствует информацию из наблюдаемых кластеров, что приводит к последовательному локальному превосходству ADNEX и ненулевому, но обычно более низкому ОПИкластер_j, чем при учете только локальных данных. Вероятность того, что базовые стратегии превосходят в ненаблюдаемых центрах, составляет 0.03. Устранение неопределенности в производительности и преобладании в каждом кластерном (ОПИкластер) дало бы 1134 чистых избегнутых ложноположительных результатов (ЛП) в год, предполагая 350000 опухолей ежегодно с 20% злокачественностей. Определение только локального преобладания с уверенностью (ОПЧИкластер, преобладание) дало бы 158 чистых избегнутых ЛП в год. Расширения ОПИ распутывают источники неопределенности и количественно оценивают необходимость дальнейшей валидации для определения глобальной или локально оптимальной стратегии. Учет неопределенности и гетерогенности в клинической полезности между кластерами имеет решающее значение для принятия решения о необходимости дополнительных валидационных исследований.

Краткое резюме

Исследование рассматривает методы оценки стоимости информации для внешней валидации моделей прогнозирования в многокцентровых исследованиях. Оно подчеркивает важность учета гетерогенности между центрами и определяет четкие стратегии, что может повысить точность прогнозов.

Практический вывод

Результаты исследования показывают, что следует учитывать гетерогенность данных при принятии решений о валидации моделей прогнозирования, чтобы избежать ложноположительных результатов и улучшить выбор оптимальной стратегии.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. Одним из ограничений исследования является зависимость результатов от предположений о производительности моделей и размере выборок в отдельных центрах, что может привести к неполной оценке гетерогенности.

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Медицина
Медицина
77%

Многоцелевые агенты с рекуррентной памятью

Рекуррентные агенты памяти расширяют возможности больших языковых моделей (LLM) для работы с произвольно длинными контекстами, последовательно консолидируя вводимые данные в фиксированное пространство памяти. Несмотря на свою масштабируемость, эти агенты демонстрируют хорошо документированную проблему надежности: общая производительность ухудшается систематически с увеличением длины контекста. Мы диагностируем это падение производительности, разбивая её на два фактора — захват памяти и сохранение памяти — и количественно подтверждаем, что именно сохранение является доминирующим узким местом. Сохранение рушится из-за того, что существующие конструкции поддерживают память как монолитный текстовый блок, что ставит под угрозу каждое обновление, рискуя перезаписать ранее сохраненное содержимое. Учитывая эту диагностику, мы предлагаем Многоцелевую Рекуррентную Память (MHM), общую и не требующую обучения структуру, которая делит память на независимые «головы», управляемые стратегией поэтапного выбора и обновления. На каждом шаге обновляется ровно одна голова, в то время как остальные головы структурно защищены от перезаписи, смещая бремя сохранения из поведения модели на архитектурный дизайн. В качестве легковесной реализации мы вводим MHM на основе принципа «Наименее Недавно Обновлённый» (MHM-LRU), который гарантирует равномерное использование голов с нулевыми дополнительными затратами на токены. Широкие эксперименты на бенчмарках с длинными контекстами показывают, что MHM-LRU значительно улучшает как сохранение информации, так и общую точность в диапазоне от 100K до 1M токенов, где базовые модели резко теряют эффективность. На RULER-HQA при 896K токенов MHM-LRU повышает уровень сохранения памяти с менее чем 30% до 73.96%. Эти достижения обобщаются на различные семейства моделей, масштабирование и типы задач, позиционируя архитектурную оптимизацию как практический и экономичный путь к надежной рекуррентной памяти с длинным контекстом.

Медицина
Медицина
77%

Интеграция данных о генетике, окружающей среде, когнитивных способностях и темпераменте для прогнозирования СДВГ с использованием объяснимых моделей глубокого обучения

Цель: Расстройство дефицита внимания и гиперактивности (СДВГ) является клинически и этиологически гетерогенным, и диагностические решения могут выиграть от интеграции нескольких источников информации. Мы разработали подход объяснимого глубокого обучения, чтобы проверить, могут ли генетические, экологические, когнитивные, демографические и темпераментные данные классифицировать диагностику СДВГ и выявить факторы, способствующие принятию решений модели. Метод: Мы проанализировали участников когорты Oregon ADHD-1000, разделенных на тренировочные, валидационные и тестовые подмножества. Мы обучили модульные нейронные сети для классификации статуса случая-контроля СДВГ с использованием данных генотипа на уровне SNP с биологическими аннотациями, полигенных баллов, демографических данных, конфликтов в родительско-семейной среде, стресса и травмы, геокодированных мер, когнитивных задач, баллов темперамента и индикаторов отсутствия данных. Оптимизация гиперпараметров выбрала архитектуру модели и включение блоков признаков. Мы оценили производительность модели, используя AUC, кривые точности и полноты, анализы калибровки и предсказательной определенности, а также анализ кривой решений. Мы использовали интегрированные градиенты для количественной оценки важности на уровне блока, признака и индивидуальной важности признаков. Результаты: Лучшая модель, использующая черты темперамента, показала AUC 0.97 в удержанном тестовом подмножестве, с высокой точностью, чувствительностью и специфичностью и Brier score 0.06. Лучшая модель, исключающая темперамент, имела AUC 0.75. Анализы важности признаков подчеркнули важность темперамента, демографических и когнитивных доменов в модели, включающей темперамент. Индивидуализированные объяснения показали, что факторы предсказания варьировались между участниками и могли помочь выявить противоречивые или поддерживающие доказательства в различных доменах. Заключение: Объяснимые многомодальные классификационные модели могут интегрировать гетерогенную информацию, релевантную СДВГ, и выявлять признаки, которые способствуют индивидуальным прогнозам. Такие модели могут продвинуть исследования риск-моделирования СДВГ и поддерживать принятие решений клиницистами, особенно в сложных или диагностически неопределенных случаях.

Медицина
Медицина
72%

Управление конфиденциальностью при раскрытии статуса ВИЧ: стратегии подростков в сельской местности Южной Африки.

Мы исследовали, как подростки, живущие с ВИЧ в сельской местности провинции Квазулу-Натал в Южной Африке, управляют границами конфиденциальности в вопросах раскрытия информации. Мы провели групповые обсуждения с 31 подростком (в возрасте 16-19 лет), набранным из трех клиник по лечению ВИЧ. Анализ данных был проведен через призму теории управления конфиденциальностью. Были выявлены три основных темы: (1) владение и контроль над частной информацией, где подростки продемонстрировали различные уровни автономии над информацией о своем статусе ВИЧ, часто разрабатывая стратегии для скрытного управления приемом медикаментов; (2) управление раскрытием и границами конфиденциальности, в которой участники разработали нюансированные правила конфиденциальности, подверженные влиянию стигмы, контекста и динамики семьи; и (3) эмоциональная и социальная поддержка в управлении раскрытием, подчеркивающая значимую роль поддерживающих систем в процессе раскрытия. В целом, участники активно управляли границами конфиденциальности, тщательно контролируя информацию, избирательно раскрывая ее и стратегически координируя действия с членами семьи и медицинскими работниками. Наши результаты показывают, что подростки в сельской местности активно управляют границами конфиденциальности вокруг своего статуса ВИЧ с помощью хорошо развитых стратегий управления информацией. Существует сложное взаимодействие между личной инициативой, семейной динамикой и культурным контекстом в формировании решений о раскрытии. Эти идеи могут предоставить более эффективные поддержки для подростков, живущих с ВИЧ в условиях ограниченных ресурсов.

Медицина
Медицина
72%

Восприятие, знания и доступ к вакцине против ВПЧ среди родителей и медицинских работников в южном Кито, Эквадор, в 2025 году: качественное исследование.

Человеческий папилломавирус (ВПЧ) считается причиной 99,7% всех случаев рака шейки матки и является главной причиной рака ануса. Несмотря на глобальный прогресс, в Эквадоре один из самых высоких уровней смертности от рака шейки матки в Латинской Америке, при колеблющемся уровне вакцинации с момента ее внедрения для девочек в 2014 году и расширения для мальчиков в 2024 году. Полуструктурированные интервью были проведены с родителями детей, имеющих право на вакцинацию, и медицинскими работниками (МР) в Кито. Интервью охватывали знания о ВПЧ, восприятие и доступность вакцинации. Транскрипты были проанализированы тематически. В исследовании приняли участие 41 респондент (32 родителя, 9 МР). Выделены восемь тем: (1) родители желают больше информации о ВПЧ, (2) ни родители, ни МР не ассоциируют ВПЧ с раком у мужчин, (3) матери имеют больше знаний, чем отцы, (4) страх перед побочными эффектами способствует колебаниям в отношении вакцинации, (5) страх перед сексуальной распущенностью не влияет на вакцинацию, (6) вакцинация против ВПЧ проводится в школах, но родители и провайдеры хотят лучшей поддержки от этих школ, (7) родители считают недостаток информации своей главной преградой, в то время как МР воспринимают беспечность родителей, и (8) возрастные рекомендации по вакцинации могут быть запутанными. Уровень вакцинации против ВПЧ формируется как индивидуальными, так и системными барьерами. Согласование перспектив провайдеров и родителей и усиление образования в школах и сообществе могут повысить уровень вакцинации.

Медицина
Медицина
72%

Сравнение языковых моделей на основе рубрик в задачах клинического мышления, созданных экспертами

Медицинские тесты с выбором ответов становятся все более переполненными, и недавние оценки на основе рубрик, такие как HealthBench, показали, что открытая клиническая оценка далека от решения: максимальный балл в ее "Сложной" подгруппе составляет всего 32%. Мы представляем небольшой, специально сложный набор оценочных данных из пяти клинических сценариев, составленных врачами, охватывающих четыре специальности (анестезиология, внутренние/семейная медицина, неотложная медицина и акушерство), каждый из которых сопровождается атомарной, взвешенной, MECE рубрикой (от 25 до 62 критериев на задачу, всего 184 критерия), составленной на основании золотого ответа, подготовленного врачом. Мы оценили три передовые модели: GPT 5.4, Claude Opus 4.7 и Gemini 3.1 Pro. Средние показатели прохождения рубрики составили 0.47 (Claude), 0.39 (GPT) и 0.37 (Gemini). Центральный вывод заключается в инверсии клинического приоритета: наиболее важные (вес-5, критически важные) критерии были выполнены всего на 32.4-41.7%, в то время как менее значимые критерии с весом-1 прошли с результатом 80-90%. 56 из 108 критически важных (вес-5) критериев (52%) не были выполнены ни одной моделью. Три авторегистраторы LLM воспроизвели метки экспертов (выполнено/не выполнено) в 92.8-94.7% из 552 оцененных критериев. Мы рассматриваем это как вклад в методы и предварительные результаты: пять задач демонстрируют масштабируемый, обоснованный процесс, готовый к развитию в крупномасштабный эталон.

Медицина
Медицина
72%

Цифровые биомаркеры, полученные с помощью акселерометрии, для оценки кардиометаболических рисков: представительный табличный эталон с учетом неопределенности

Структурированные табличные данные доминируют в клинической медицине, однако существующие эталоны не отражают реальных свойств, таких как сложное опросное деление, демографический оверсэмплинг и справедливость по подгруппам. Мы представляем эталон NHANES Accelerometry Cardiometabolic Benchmark, основанный на данных NHANES 2003-2006, который включает 1381 взрослого с акселерометром, носимым на бедре, лабораторными биомаркерами натощак, данными о потреблении пищи и антропометрикой. Мы оцениваем три метода табличного обучения — гребневая регрессия, XGBoost и базовую модель TabPFN v2 — для прогнозирования гликированного гемоглобина (HbA1c), триглицеридов натощак и C-реактивного белка (CRP) на основе фенотипов активности и факторов образа жизни. TabPFN v2 демонстрирует лучшее общее качество (R^2 HbA1c=0.156, R^2 CRP=0.383), в то время как триглицериды остаются в значительной степени непредсказуемыми (R^2 < 0.05), что соответствует известному генетическому доминированию. Мы применяем разделенное конформное предсказание для генерации предсказательных интервалов с 90% уверенности и оцениваем равенство охвата по демографическим группам, включая пол и расовую/этническую принадлежность. Предел охвата соответствует целевым 90% для CRP и HbA1c, но ниже для триглицеридов. На уровне подгрупп мы наблюдаем локализованное недоохватывание (например, HbA1c для участников мексиканского происхождения), что иллюстрирует разрыв между предельными гарантиями и условным покрытием, необходимым для клинической справедливости. Код и данные доступны по адресу https://github.com/felizzi/nhanes-accel-cardiometabolic-benchmark.