MMIR-TCM: Интегрированная память для многомодального вывода и поиска в поддержке клинического принятия решений в традиционной китайской медицине
MMIR-TCM: Memory-Integrated Multimodal Inference and Retrieval for TCM Clinical Decision Support
Карточка статьи
Рубрика
Медицина
Источник
arXiv
Дата
02.07.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Аннотация
Диагностика традиционной китайской медицины (ТКМ), особенно через осмотр языка, сталкивается с постоянными проблемами субъективности и воспроизводимости. Применение многомодального искусственного интеллекта для клинических задач ТКМ, таких как дифференциация синдромов и генерация рецептов, значительно затруднено семантическим разрывом между визуальными характеристиками языка и текстовым обоснованием, а также отсутствием масштабных, стандартизированных наборов данных. Для решения этих проблем мы представляем MMIR-TCM, новую структуру, которая эмулирует процесс диагностики экспертов ТКМ, интегрируя многомодальную языковую модель с сегментацией, дополненной памятью и генерацией, основанной на извлечении. Используя архитектуру, состоящую из трех этапов, MMIR-TCM интегрирует модуль Memory-SAM, не требующий обучения, для надежного извлечения языка, уточненную модель Qwen3-VL для генерации структурированной диагностики языка и компонент RAG на основе Qwen3 для генерации обоснованной клинической поддержки принятия решений. Структура была разработана и валидирована с использованием MedTCM, нового крупномасштабного многомодального набора данных, который мы представляем специально для углубленных исследований ТКМ. Для правильной оценки клинической точности нашей структуры, которую существующие метрики не могут отразить, мы также разработали TDEU, доменно-специфическую оценочную метрику, учитывающую семантическое понимание и диагностическую важность. Наши комплексные эксперименты демонстрируют, что MMIR-TCM значительно превосходит ведущие модели.
Краткое резюме
Исследование представляет новый подход к диагностике в традиционной китайской медицине, использующий интеграцию многомодальных ИИ-технологий для улучшения точности анализа, основанного на визуальных особенностях языка.
Практический вывод
MMIR-TCM предлагает новые возможности для поддержки клинических решений в традиционной китайской медицине, снижая влияние субъективности и улучшая точность диагностики.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Одним из ограничений исследования является необходимость в крупных и стандартизированных наборах данных для дальнейшего улучшения работы системы. Также качество диагноза может варьироваться в зависимости от специфики обучающих данных.
Рекуррентные агенты памяти расширяют возможности больших языковых моделей (LLM) для работы с произвольно длинными контекстами, последовательно консолидируя вводимые данные в фиксированное пространство памяти. Несмотря на свою масштабируемость, эти агенты демонстрируют хорошо документированную проблему надежности: общая производительность ухудшается систематически с увеличением длины контекста. Мы диагностируем это падение производительности, разбивая её на два фактора — захват памяти и сохранение памяти — и количественно подтверждаем, что именно сохранение является доминирующим узким местом. Сохранение рушится из-за того, что существующие конструкции поддерживают память как монолитный текстовый блок, что ставит под угрозу каждое обновление, рискуя перезаписать ранее сохраненное содержимое. Учитывая эту диагностику, мы предлагаем Многоцелевую Рекуррентную Память (MHM), общую и не требующую обучения структуру, которая делит память на независимые «головы», управляемые стратегией поэтапного выбора и обновления. На каждом шаге обновляется ровно одна голова, в то время как остальные головы структурно защищены от перезаписи, смещая бремя сохранения из поведения модели на архитектурный дизайн. В качестве легковесной реализации мы вводим MHM на основе принципа «Наименее Недавно Обновлённый» (MHM-LRU), который гарантирует равномерное использование голов с нулевыми дополнительными затратами на токены. Широкие эксперименты на бенчмарках с длинными контекстами показывают, что MHM-LRU значительно улучшает как сохранение информации, так и общую точность в диапазоне от 100K до 1M токенов, где базовые модели резко теряют эффективность. На RULER-HQA при 896K токенов MHM-LRU повышает уровень сохранения памяти с менее чем 30% до 73.96%. Эти достижения обобщаются на различные семейства моделей, масштабирование и типы задач, позиционируя архитектурную оптимизацию как практический и экономичный путь к надежной рекуррентной памяти с длинным контекстом.
Медицинские тесты с выбором ответов становятся все более переполненными, и недавние оценки на основе рубрик, такие как HealthBench, показали, что открытая клиническая оценка далека от решения: максимальный балл в ее "Сложной" подгруппе составляет всего 32%. Мы представляем небольшой, специально сложный набор оценочных данных из пяти клинических сценариев, составленных врачами, охватывающих четыре специальности (анестезиология, внутренние/семейная медицина, неотложная медицина и акушерство), каждый из которых сопровождается атомарной, взвешенной, MECE рубрикой (от 25 до 62 критериев на задачу, всего 184 критерия), составленной на основании золотого ответа, подготовленного врачом. Мы оценили три передовые модели: GPT 5.4, Claude Opus 4.7 и Gemini 3.1 Pro. Средние показатели прохождения рубрики составили 0.47 (Claude), 0.39 (GPT) и 0.37 (Gemini). Центральный вывод заключается в инверсии клинического приоритета: наиболее важные (вес-5, критически важные) критерии были выполнены всего на 32.4-41.7%, в то время как менее значимые критерии с весом-1 прошли с результатом 80-90%. 56 из 108 критически важных (вес-5) критериев (52%) не были выполнены ни одной моделью. Три авторегистраторы LLM воспроизвели метки экспертов (выполнено/не выполнено) в 92.8-94.7% из 552 оцененных критериев. Мы рассматриваем это как вклад в методы и предварительные результаты: пять задач демонстрируют масштабируемый, обоснованный процесс, готовый к развитию в крупномасштабный эталон.
Фиброаденома груди (ФА) и опухоль Филлоидов (ОФ) — это фиброэпителиальные поражения груди с высоко перекрывающимися проявлениями на ультразвуковых изображениях, что делает доброкачественные и пограничные ОФ подверженными ошибочной классификации как ФА, осложняя предоперационное принятие решений. Существующие методы компьютерной помощи в диагностике обычно основываются на однородных изображениях и недостаточно используют дополнительные клинические и текстовые данные. Чтобы решить эту проблему, мы разработали набор данных FAPT-M, состоящий из 910 пациентов с строго проверенными ультразвуковыми изображениями, структурированными клиническими атрибутами и описаниями ультразвуковой диагностики. На основе этого набора данных мы предлагаем клинически ориентированную мультимодальную структуру, которая объединяет визуальное кодирование на основе DenseNet, текстовое кодирование, вдохновленное CLIP, и легковесное клиническое кодирование, а также вводит адаптивную модуляцию с учетом клинических данных, фузию между модальностями с помощью Transformers и обучение представления с двойным путем для улучшения согласования признаков и взаимодействия между модальностями. В рамках пятирубцовой перекрестной проверки на уровне пациентов предлагаемый метод достигает точности 77,64%, F1-оценки 73,38% и AUC 89,74%, что превосходит представительные эталонные методы на базе CNN, Transformers и визуально-языковых моделей. Исследования по абляции и оценки с учетом классов дополнительно подтверждают вклад фузии трех модальностей и ключевые архитектурные компоненты. В целом, эта работа предоставляет эффективный мультимодальный подход для детальной классификации ФА и ОФ и устанавливает высококачественный эталон для мультимодального анализа ультразвука молочной железы.
Системы накопления энергии на базе батарей (BESS) крупного масштаба требуют решений по эксплуатации и обслуживанию (O&M), которые объединяют тревожные сигналы, измерения на уровне ячеек, топологию устройств, диагностические таблицы, исторические случаи и документы по техническому обслуживанию. Платформы мониторинга могут выявлять нарушения пороговых значений, но они часто не могут объяснить, требует ли вмешательства несоответствие напряжения, дрейф сопротивления, риск короткого замыкания, расхождение в емкости или термическая аномалия. В этом материале представлен отслеживаемый помощник по диагностике неисправностей BESS, который использует многократное рассуждение с использованием поиска для соединения операционных данных, знаний в области, визуальных доказательств и генерации отчетов. Надежность повышается за счет специфической маршрутизации задач для BESS, доступа к базе данных естественного языка с ограничениями схемы, гибридного поиска текста и изображений, а также синтеза ответов на основе доказательств. Приведены предварительные внутренние оценки для маршрутизации, доступа к базе данных и диагностического рассуждения.
В данной статье представлен практический каркас поддержки решений в области человеческих ресурсов (HR) для малых компаний и стартапов, основанный на мультидоменной матрице (MDM). Этот каркас решает три ключевые задачи, с которыми сталкиваются малые организации: сложные взаимозависимости между компонентами организации; отсутствие систематических аналитических инструментов для принятия решений в области HR; и необходимость быстрого реагирования в быстро меняющихся организационных средах. Предлагаемый каркас формулирует управление человеческими ресурсами стартапов как проблему структурного моделирования в мультидоменной среде, где участники, навыки и проекты являются взаимосвязанными доменами внутри интегрированной MDM. На основе этого представления каркас предоставляет рекомендации по качественному анализу и количественные метрики для диагностики состояния HR в организации и поддержки решений по перераспределению нагрузки, найму и развитию навыков. Проводится тематическое исследование принятия HR-решений на основе MDM для стартапа в начальной стадии, чтобы продемонстрировать практическую применимость каркаса. Применение показывает, что каркас может выявлять дисбалансы в нагрузке, выявлять ключевого участника с чрезмерной нагрузкой и информировать о последующих решениях по найму. Каркас может быть применён и после найма нового участника для отслеживания изменений в мультидоменной структуре организации и поддержки непрерывной диагностики HR.
Эндоскопическая деторсия является основным методом лечения сигмовидной вирулентности (СВ); однако, деторсия не всегда бывает успешной. Мы оценили клинические результаты после неудачной эндоскопической деторсии и проанализировали рецидивы у пациентов, которые достигли клинического успеха после декомпрессии. Это одноцентровое ретроспективное когортное исследование включало 47 пациентов с первым эпизодом СВ, из которых 43 прошли эндоскопическое лечение. Базовые характеристики и краткосрочные исходы сравнивались между группами успешной и неудачной деторсии. Среди пациентов с клиническим успехом в больничном курсе и 1-летней кумулятивной рецидивности сравнивались группы успешной деторсии и успешной декомпрессии. Кумулятивный рецидив оценивался с использованием метода Каплан-Meier. Успешная деторсия была достигнута у 21 из 43 пациентов (48,8%). Среди 22 пациентов с неудачной деторсией 17 достигли клинического успеха после декомпрессии, в то время как пять имели клиническую неудачу, в том числе четверо, которым была проведена экстренная операция, и один, кто умер на следующий день. Общий уровень клинического успеха составил 88,4% (38/43). Неудачная деторсия была связана с более низким уровнем насыщения кислородом в воздухе и более высокими уровнями лактата. Клинический успех встречался реже в группе неудачной деторсии (77,3% против 100%, p=0,065), а время пребывания в больнице было длиннее (медиана 13 против 7 дней, p=0,071). Среди пациентов с клиническим успехом время до возобновления перорального питания было короче в группе успешной деторсии (медиана 1,5 против 3 дней, p=0,004), в то время как 1-летняя кумулятивная частота рецидивов была численно выше, но статистически незначительна (79,6% против 51,3%, log-rank=0,087). После оценки необходимости экстренной операции, декомпрессия как таковая может не всегда требовать немедленной повторной деторсии у выбранных пациентов, которые клинически улучшаются.