Искусственный интеллектPubMedScience Morning3 мин чтенияanimal study
Мультимодальные модели искусственного интеллекта для стадирования фиброза печени: обзор.
Multimodal artificial intelligence models for liver fibrosis staging: a scoping review.
Карточка статьи
Рубрика
Искусственный интеллект
Источник
PubMed
DOI
10.1007/s00261-026-05667-y
Дата
01.07.2026
Автор
Science Morning
Время чтения
3 мин
Аннотация
Мультимодальные подходы в области искусственного интеллекта (ИИ), интегрирующие разнородные источники данных, представляют собой новую границу в оценке фиброза печени. Тем не менее, использование мультимодального ИИ для стадирования фиброза печени было лишь предварительно исследовано, и существующие данные ограничены значительными методологическими пробелами. Этот обзор aims был направлен на полное картирование текущих данных о мультимодальных ИИ моделях, которые интегрируют медицинскую визуализацию с другими категориями данных для прогнозирования стадии фиброза печени. Следуя методологии Института Джоанны Бриггс и рекомендациям PRISMA-ScR, мы провели поиск в MEDLINE, Web of Science, CENTRAL и IEEE Xplore 12 августа 2025 года. В исследования были включены работы, разрабатывающие модели ИИ или машинного обучения для прогнозирования фиброза печени и интегрирующие как минимум одну визуализационную модальность с разнородными категориями данных (например, клинические параметры или сывороточные биомаркеры). Три рецензента независимо отобрали записи, и извлеченные данные были независимо проверены двумя дополнительными рецензентами. Из 2849 записей 21 исследование соответствовало критериям допуска, что дало 34 различных мультимодальных ИИ модели. Исследования были географически сосредоточены в Китае (81%) и в основном фокусировались на заболеваниях печени, связанных с гепатитом B. Наиболее распространенным подходом были радиомика на основе КТ, комбинированная с сывороточными биомаркерами, в то время как архитектуры глубокого обучения применялись реже. В 107 оценках AUC медиана AUC составила 0.890 (межквартильный диапазон 0.850-0.925). AUC внешней валидации (12 оценок из 6 исследований) варьировалась от 0.808 до 0.990; 3 оценки внутреннего тестирования из одного исследования оказались ниже 0.70. Тем не менее, внешний контроль был представлен только у 20.6% моделей, при этом отчетность о калибровке и анализ кривой принятия решений были описаны в 23.1% и 24.1% оценок соответственно. Этот обзор выявил начинающуюся область с об encouraging диагностической производительностью, но с существенными пробелами во внешней валидации, отчетности о калибровке и оценке клинической полезности. Будущие исследования должны приоритизировать методологически строгую валидацию и оценивать влияние на клинические решения.
Краткое резюме
Обзор исследует мультимодальные модели искусственного интеллекта, которые интегрируют медицинские изображения и другие данные для оценки различных стадий фиброза печени. На основе анализа 21 исследования выделены основные методы и результаты AUC, подчеркивающие необходимость более тщательной валидации и анализа клинической полезности.
Практический вывод
Необходимо усилить внимание на методologically rigorous валидации мультимодальных моделей ИИ в оценке фиброза печени для повышения их клинической применимости.
Ограничения
Основные ограничения исследования включают низкие проценты внешней валидации моделей, а также недостаточное освещение вопросов калибровки и анализа клинической полезности.
Подтверждение того, что предложенное решение действительно решает научную проблему, является ключевым аспектом надежного рассуждения и поиска информации. Используя SCP-116K, мы создали 177 836 сбалансированных пар «проблема-решение» (88 918 соответствующих и 88 918 несоответствующих), охватывающих различные области STEM, и представили верификацию, следуя TRIZ/IDM, как различение соответствующих и несоответствующих пар. Сравнивая лексические, поисковые и легковесные нейронные модели, наша лучшая модель (RoBERTa + Slim ResNet, замороженные векторные представления предложений, оцененные с помощью остаточной MLP) достигает AUC 0.966, F1 0.905 и LogLoss 0.238. Базовая линия TF-IDF + Cosine + Elastic-Net, которая не требует больших ресурсов, отстает на 1.6-1.7 баллов AUC, но работает примерно в 250 раз быстрее и использует около 1.5 ГБ ОЗУ, что демонстрирует сильное соотношение эффективности и точности. Вероятности служат оценками повторного ранжирования среди кандидатных решений; мы интерпретируем высокий ROC-AUC как парное различение, а абсолютную точность как верхнюю границу, учитывая синтетические негативные примеры.
Целью настоящего исследования было оценить точность и надежность четырех моделей искусственного интеллекта (ИИ) — ChatGPT, Copilot, DeepSeek и Gemini — в генерации ссылок в формате PubMed для литературы, связанной с заболеваниями хрусталика, катарактой, расстройствами радужки и патологией передней камеры. Проведено сравнительное исследование точности. В качестве тестовых данных использовалось сорок стандартизированных клинических абзацев из «Обзора офтальмологии» (4-е издание). Каждую модель ИИ попросили сгенерировать ссылки в формате PubMed по стандарту AMA-11. Точность цитирования оценивалась с использованием заранее определенных критериев, включая проверяемость в PubMed, соответствие DOI и библиографическую точность. Два эксперта независимо классифицировали ссылки как полностью цитируемые, частично цитируемые или нецитируемые и оценили согласованность оценок. Точность цитирования значительно варьировала среди моделей. DeepSeek продемонстрировал наивысшую точность (52,5%), за ним следовали ChatGPT (32,5%) и Copilot (20,0%), тогда как Gemini показал наименьшую точность (2,5%) (P < 0,001). Наиболее распространенной ошибкой среди всех моделей были несоответствия DOI. Экспертная проверка подтвердила эти выводы, при этом DeepSeek представил наибольшее количество полностью цитируемых ссылок. Согласие между экспертами было значительным (коэффициент Коэна k = 0,65). Модели ИИ, ориентированные на конкретную область, особенно DeepSeek, превосходят модели общего назначения в генерации ссылок PubMed из офтальмологической литературы. Тем не менее, все оцененные модели демонстрировали ошибки цитирования, что подчеркивает необходимость человеческой верификации. Инструменты ИИ могут улучшить академические рабочие процессы в качестве вспомогательных систем, однако их не следует использовать самостоятельно для генерации ссылок в медицинских исследованиях.
Цель данного исследования заключалась в разработке и внешней валидации модели прогнозирования риска острого повреждения почек (ОПП) на 48 часов в реальном времени для критически больных пациентов с использованием модели глубокого обучения двойного канала (DC-AKI). Модель была разработана на основе электронных медицинских записей 28,099 пациентов в медицинском центре Beth Israel Deaconess и внешне валидирована на двух независимых когорт, состоящих из 3,108 пациентов из базы данных eICU и 2,808 пациентов из больницы народного госпиталя провинции Чжэцзян. Тридцать одна изменяющаяся во времени характеристика обновлялась каждые 6 часов. Архитектура модели DC-AKI интегрировала сети BiGRU, свёрточные слои и механизмы внимания для захвата мультишкалярных временных зависимостей. Модель достигла значений площади под кривой операционных характеристик (AUC) 0,720 (95% ДИ, 0,714-0,728) при внутренней валидации и 0,577 (95% ДИ, 0,570-0,583) и 0,798 (95% ДИ, 0,795-0,799) в двух внешних когорт. Анализ интерпретируемости SHAP выявил ключевые клинические предикторы и индивидуальные траектории риска. В заключение, DC-AKI продемонстрировала хорошую предсказательную способность в развивающей когортной популяции и на одном сайте внешней валидации, хотя производительность существенно варьировала в зависимости от учреждений. Необходимо дальнейшая валидация и локальная калибровка для поддержки её клинического применения.
С развитием технологий пациенты все чаще ищут медицинскую информацию в интернете, и чат-боты на базе искусственного интеллекта (ИИ), такие как NIPRGPT — наиболее доступный инструмент ИИ для пользователей компьютеров Министерства обороны США — предлагают новый ресурс для ответов на вопросы о фемороацетабулярном импинджменте (ФАИ). На данный момент не проводилось исследований, оценивающих ответы NIPRGPT на ортопедические медицинские вопросы. Основная цель данного исследования заключалась в оценке точности, полноты и читаемости ответов NIPRGPT на распространенные вопросы о ФАИ. Были выбраны двенадцать часто задаваемых вопросов (ЧЗВ) о ФАИ из подготовленного списка и заданы NIPRGPT. Точность и достаточность ответов оценивались панелью сертифицированных хирургов по четырем критериям: отлично (без необходимости в уточнениях), удовлетворительно (необходимы минимальные уточнения), удовлетворительно (необходимы умеренные уточнения) и неудовлетворительно (необходимы существенные уточнения). Кроме того, была оценена читаемость с использованием коэффициента читаемости Флеш-Кинкейда. Из 12 ответов четыре (33,3%) были оценены как отличные, не требующие уточнения, семь (58,3%) — как удовлетворительные, требующие минимальных уточнений, и один (8,3%) — как удовлетворительный, требующий умеренных уточнений. Не было неудовлетворительных ответов. Средняя оценка качества составила 3,38 из 4,0. Однако средний коэффициент читаемости Флеш-Кинкейда составил 19,6, что соответствует уровню читаемости для лиц с послевузовским или специализированным академическим образованием. Согласованность оценок между наблюдателями была низкой, с альфа-коэффициентом Криппендорфа 0,046. NIPRGPT предоставляет ответы на ЧЗВ о ФАИ, которые в целом являются точными и надежными. Однако сложность ответов значительно превышает рекомендуемый уровень читаемости для образовательных материалов для пациентов. Хотя это может быть полезным дополнением в условиях военной медицины, где доступ к информации может быть ограничен, врачам следует учитывать высокие требования к грамотности, которые налагаются на пациентов, использующих этот инструмент.
Статья обсуждает влияние искусственного интеллекта на сферу здравоохранения, подчеркивая как его преимущества, так и возможные риски и недостатки. Проводится анализ успешных примеров внедрения ИИ, а также проблем, с которыми сталкиваются медики и пациенты.
Хотя большие языковые модели (БЯМ) хорошо справляются с задачами, связанными с таблицами, они все же совершают ошибки при ссылках на данные (ЭСД), то есть неправильно цитируют или опускают значения из таблиц, несмотря на понимание их структуры. Кроме того, что ошибки при ссылках на данные влияют на точность финальных ответов, они прямо ставят под сомнение корректность и надежность промежуточных шагов рассуждения. Однако предыдущие исследования предлагали лишь ограниченные и мелкомасштабные анализы. В данной работе мы представляем первую систематическую оценку ошибок ссылок на табличные данные в различных моделях и задачах. Наши результаты показывают, что ЭСД встречаются во всех протестированных моделях (от 1.7 до 20 миллиардов параметров). Кроме того, мы демонстрируем, что внедрение ссылок на данные в качестве критика значительно улучшает точность ответов на 12.0% с помощью фильтрации на основе критика и выборки для отклонения. В заключение, мы обучили легкую модель критика с 4 миллиардами параметров, которая достигает средней F1 оценки 78.2% в обнаружении как внутрираспределенных, так и внераспределенных ЭСД и эффективно способствует выводу для более крупных моделей.