МедицинаarXivScience Morning3 мин чтенияpreprint

MIBE: Бенчмарк и оценщик взаимодействий между несколькими объектами для персонализированной генерации изображений

MIBE: Multi-subject Interaction Benchmark and Evaluator for Personalized Image Generation

Рубрика
Медицина
Источник
arXiv
Дата
01.07.2026
Автор
Science Morning
Время чтения
3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Медицина

Аннотация

Персонализированная генерация изображений с несколькими объектами требует точного отображения всех запрашиваемых идентичностей и их заданных взаимодействий на основе направляющего запроса. Однако современные модели все еще испытывают трудности в этом процессе, часто опуская объекты, не сохраняя внешность референсов или неверно приписывая взаимодействия. Кроме того, существующие метрики, которые в основном разработаны для оценки единственного объекта, не могут надежно фиксировать эти ошибки, страдая от сильного ухудшения различимости в ранжировании и не совпадая с человеческими предпочтениями по мере увеличения числа объектов. Для решения этой проблемы мы представляем Бенчмарк и оценщик взаимодействий между несколькими объектами (MIBE), унифицированную структуру, состоящую из Бенчмарка взаимодействий между несколькими объектами (MIB) и Оценщика взаимодействий между несколькими объектами (MIE). MIB систематически охватывает различные типы отношений и сложности сцен через декомпозированную организацию данных. Это включает 60K пар с метками VLM для масштабируемого обучения метрик и 4K пар из двойного слепого оценивания людьми для разнообразного диапазона современных генераторов, при этом набор Silver достигает 95.1% согласия по предпочтениям. Для демонстрации полезности этого бенчмарка мы представляем MIE, легковесный, ориентированный на референсы оценщик, обученный исключительно на наборе Silver с двойной целью ранжирования и диагностики. MIE демонстрирует сильную обобщающую способность между генераторами на Gold наборе, достигая 0.922 общей точности парного сравнения с человеческими предпочтениями, включая 0.982 для изученных генераторов и 0.884 для не изученных. Обогнав широкий спектр базовых метрик, включая вариации CLIP и DINO, MIE показывает, что диагностическое наблюдение может сохранить различимость в ранжировании и соответствие с людьми там, где традиционные оценщики теряются.

Краткое резюме

Статья представляет новый бенчмарк MIBE для оценки персонализированной генерации изображений с несколькими объектами, который включает в себя систематизацию типов взаимодействий и улучшенную точность оценивания, что позволяет лучше учитывать человеческие предпочтения.

Практический вывод

Разработка MIBE обеспечивает более надежные методы оценки генерации изображений, что может значительно улучшить качество результатов в области многократного персонализированного изображения.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. Основные ограничения исследования связаны с необходимостью дальнейшего улучшения метрик оценки для сложных сценариев взаимодействия и увеличения разнообразия тестовых наборов для повышения обобщаемости.

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Медицина
Медицина
92%

Анализ стоимости информации для внешней валидации моделей прогнозирования рисков в многокцентровых исследованиях и систематических обзорах

Исследования внешней валидации имеют конечный размер выборки, что создает неопределенность относительно того, превышает ли чистая выгода (ЧВ) модели прогнозирования ЧВ базовых стратегий. Ожидаемая цена идеальной информации (ОПИ) quantifies последствия неопределенности. Текущие методы ОПИ фокусируются на одиночных исследованиях, игнорируя гетерогенность между центрами. Мы расширяем ОПИ и ожидаемую цену частичной идеальной информации (ОПЧИ), чтобы учесть гетерогенность между кластерами в многокцентровых исследованиях и метаанализах. Мы различаем глобальную и локальную оптимальную стратегию, а также наблюдаемые и ненаблюдаемые кластеры. Мы определяем ОПИглобальная, ОПИкластер_j, ОПИкластер и ОПЧИкластер,преобладание, реализованные в R-пакете MetaNB, и иллюстрируем их с помощью систематического обзора, проведенного в 36 центрах, по модели ADNEX для диагностики рака яичников. Предполагая одно глобальное решение по принятию ADNEX, нет необходимости в дополнительных данных для подтверждения, что ADNEX является превосходящим в целом (ОПИглобальная 0). Метаанализ заимствует информацию из наблюдаемых кластеров, что приводит к последовательному локальному превосходству ADNEX и ненулевому, но обычно более низкому ОПИкластер_j, чем при учете только локальных данных. Вероятность того, что базовые стратегии превосходят в ненаблюдаемых центрах, составляет 0.03. Устранение неопределенности в производительности и преобладании в каждом кластерном (ОПИкластер) дало бы 1134 чистых избегнутых ложноположительных результатов (ЛП) в год, предполагая 350000 опухолей ежегодно с 20% злокачественностей. Определение только локального преобладания с уверенностью (ОПЧИкластер, преобладание) дало бы 158 чистых избегнутых ЛП в год. Расширения ОПИ распутывают источники неопределенности и количественно оценивают необходимость дальнейшей валидации для определения глобальной или локально оптимальной стратегии. Учет неопределенности и гетерогенности в клинической полезности между кластерами имеет решающее значение для принятия решения о необходимости дополнительных валидационных исследований.

Медицина
Медицина
92%

Мультидоменная матричная структура для поддержки решений в области управления человеческими ресурсами

В данной статье представлен практический каркас поддержки решений в области человеческих ресурсов (HR) для малых компаний и стартапов, основанный на мультидоменной матрице (MDM). Этот каркас решает три ключевые задачи, с которыми сталкиваются малые организации: сложные взаимозависимости между компонентами организации; отсутствие систематических аналитических инструментов для принятия решений в области HR; и необходимость быстрого реагирования в быстро меняющихся организационных средах. Предлагаемый каркас формулирует управление человеческими ресурсами стартапов как проблему структурного моделирования в мультидоменной среде, где участники, навыки и проекты являются взаимосвязанными доменами внутри интегрированной MDM. На основе этого представления каркас предоставляет рекомендации по качественному анализу и количественные метрики для диагностики состояния HR в организации и поддержки решений по перераспределению нагрузки, найму и развитию навыков. Проводится тематическое исследование принятия HR-решений на основе MDM для стартапа в начальной стадии, чтобы продемонстрировать практическую применимость каркаса. Применение показывает, что каркас может выявлять дисбалансы в нагрузке, выявлять ключевого участника с чрезмерной нагрузкой и информировать о последующих решениях по найму. Каркас может быть применён и после найма нового участника для отслеживания изменений в мультидоменной структуре организации и поддержки непрерывной диагностики HR.

Медицина
Медицина
87%

Международный травматический опросник с 'клиническими проверками' (ITQ-CC): измерение ПТСР и сложного ПТСР в популяционно-основанном исследовании в Польше.

Международный травматический опросник (ITQ) — это широко используемый инструмент для измерения посттравматического стрессового расстройства (ПТСР) и сложного ПТСР (СПТСР) согласно 11-й редакции Международной статистической классификации болезней (ICD-11), который позволяет оценивать распространенность этих расстройств как в генеральной популяции, так и в клинических выборках. В связи с опасениями, связанными с использованием самоотчетных мер, авторы оригинальной версии ввели концепцию 'клинических проверок', которые добавлены в новой версии для обеспечения отражения первоначальных ответов клинического смысла элементов шкалы. Поскольку эта концепция новая и требует тестирования в различных культурных условиях, целью данного исследования было измерить и сравнить распространенность вероятного ПТСР и СПТСР в репрезентативной выборке поляков с использованием новой версии ITQ (ITQ-CC) и оригинальной версии. Мы собрали данные от репрезентативной выборки взрослых из Польши (n=1,816) через интернет-панель. Сравнение результатов, полученных с использованием ITQ и ITQ-CC, показало, что количество индивидуальных симптому снизилось на 18,9% — 41,6%. Оценки распространенности расстройства без клинических проверок составили 5,3% для ПТСР и 6,1% для СПТСР. Эти оценки снизились до 2,4% для ПТСР и до 3,5% для СПТСР при использовании клинических проверок; таким образом, относительное снижение составило 55,7% для ПТСР и 48,7% для СПТСР, что в результате дало общий относительный уровень снижения 48,8%. Результаты исследования указывают на значительное влияние клинических проверок на скрининг посттравматических симптомов. Это привело к значительному снижению оценок распространенности ПТСР и СПТСР.

Медицина
Медицина
82%

Мультимодальная фузия для детальной классификации фиброаденом груди и опухолей Филлоидов

Фиброаденома груди (ФА) и опухоль Филлоидов (ОФ) — это фиброэпителиальные поражения груди с высоко перекрывающимися проявлениями на ультразвуковых изображениях, что делает доброкачественные и пограничные ОФ подверженными ошибочной классификации как ФА, осложняя предоперационное принятие решений. Существующие методы компьютерной помощи в диагностике обычно основываются на однородных изображениях и недостаточно используют дополнительные клинические и текстовые данные. Чтобы решить эту проблему, мы разработали набор данных FAPT-M, состоящий из 910 пациентов с строго проверенными ультразвуковыми изображениями, структурированными клиническими атрибутами и описаниями ультразвуковой диагностики. На основе этого набора данных мы предлагаем клинически ориентированную мультимодальную структуру, которая объединяет визуальное кодирование на основе DenseNet, текстовое кодирование, вдохновленное CLIP, и легковесное клиническое кодирование, а также вводит адаптивную модуляцию с учетом клинических данных, фузию между модальностями с помощью Transformers и обучение представления с двойным путем для улучшения согласования признаков и взаимодействия между модальностями. В рамках пятирубцовой перекрестной проверки на уровне пациентов предлагаемый метод достигает точности 77,64%, F1-оценки 73,38% и AUC 89,74%, что превосходит представительные эталонные методы на базе CNN, Transformers и визуально-языковых моделей. Исследования по абляции и оценки с учетом классов дополнительно подтверждают вклад фузии трех модальностей и ключевые архитектурные компоненты. В целом, эта работа предоставляет эффективный мультимодальный подход для детальной классификации ФА и ОФ и устанавливает высококачественный эталон для мультимодального анализа ультразвука молочной железы.

Медицина
Медицина
82%

SABER: Фреймворк анализа семантически согласованной структуры мозга с помощью многомасштабных гиперграфов

Эффективная диагностика заболеваний мозга требует синергии паттернов подключения мозга и высокоуровневых семантических знаний. Однако существующие методы в значительной степени рассматривают семантику из крупных языковых моделей (LLMs) как вспомогательные признаки или руководство, что ограничивает их прямую роль в принятии решений и сужает стабильность и надежность классификации. Чтобы преодолеть это, мы предлагаем фреймворк семантически согласованной нейросети мозга, который активно интегрирует семантику, полученную от LLM, в процесс предсказания. В частности, семантика на уровне ROI сначала включается через глобальное самообращение для обогащения представлений узлов и предоставления контекста всего мозга. Затем строятся многомасштабные гиперграфы для явного моделирования функциональных подсетей и взаимодействий между несколькими ROI, что решает локальные ограничения традиционных ГНН и захватывает высокопорядковые зависимости. Наконец, механизм семантической согласованности на уровне принятия решений избирательно вводит текстовые вложения, специфичные для пациента, в графовые представления, позволяя семантике напрямую управлять предсказаниями без нарушения глубинной структуры сети. Эксперименты на публичных наборах данных сети мозга ABIDE и ADHD-200 демонстрируют состояние искусства, повышенную стабильность и улучшенную интерпретируемость, особенно в условиях небольших выборок.