Искусственный интеллектarXivScience Morning3 мин чтенияpreprint
CoMet: Декомпозиция контекста и множественности для оценки неопределенности в мультимодальных моделях
CoMet: Context and Multiplicity Decomposition for Multimodal Uncertainty Estimation
Карточка статьи
Рубрика
Искусственный интеллект
Источник
arXiv
Дата
30.06.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Краткое резюме
Статья представляет метод CoMet для оценки неопределенности в мультимодальных больших языковых моделях. Метод основывается на декомпозиции неопределенности на две составляющие: специфическую для контекста и множественности, что позволяет более эффективно справляться с неоднозначностью и определять количество правдоподобных ответов. Эксперименты показывают успешность CoMet по сравнению с традиционными подходами.
Практический вывод
Метод CoMet позволяет более эффективно и точно оценивать неопределенность в мультимодальных языковых моделях, что может быть полезно для улучшения практических приложений AI.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Ограничения исследования связаны с необходимостью дальнейшей проверки эффективности метода на большем количестве задач и адаптации к различным типам мультимодальных данных.
Мультимодальные подходы в области искусственного интеллекта (ИИ), интегрирующие разнородные источники данных, представляют собой новую границу в оценке фиброза печени. Тем не менее, использование мультимодального ИИ для стадирования фиброза печени было лишь предварительно исследовано, и существующие данные ограничены значительными методологическими пробелами. Этот обзор aims был направлен на полное картирование текущих данных о мультимодальных ИИ моделях, которые интегрируют медицинскую визуализацию с другими категориями данных для прогнозирования стадии фиброза печени. Следуя методологии Института Джоанны Бриггс и рекомендациям PRISMA-ScR, мы провели поиск в MEDLINE, Web of Science, CENTRAL и IEEE Xplore 12 августа 2025 года. В исследования были включены работы, разрабатывающие модели ИИ или машинного обучения для прогнозирования фиброза печени и интегрирующие как минимум одну визуализационную модальность с разнородными категориями данных (например, клинические параметры или сывороточные биомаркеры). Три рецензента независимо отобрали записи, и извлеченные данные были независимо проверены двумя дополнительными рецензентами. Из 2849 записей 21 исследование соответствовало критериям допуска, что дало 34 различных мультимодальных ИИ модели. Исследования были географически сосредоточены в Китае (81%) и в основном фокусировались на заболеваниях печени, связанных с гепатитом B. Наиболее распространенным подходом были радиомика на основе КТ, комбинированная с сывороточными биомаркерами, в то время как архитектуры глубокого обучения применялись реже. В 107 оценках AUC медиана AUC составила 0.890 (межквартильный диапазон 0.850-0.925). AUC внешней валидации (12 оценок из 6 исследований) варьировалась от 0.808 до 0.990; 3 оценки внутреннего тестирования из одного исследования оказались ниже 0.70. Тем не менее, внешний контроль был представлен только у 20.6% моделей, при этом отчетность о калибровке и анализ кривой принятия решений были описаны в 23.1% и 24.1% оценок соответственно. Этот обзор выявил начинающуюся область с об encouraging диагностической производительностью, но с существенными пробелами во внешней валидации, отчетности о калибровке и оценке клинической полезности. Будущие исследования должны приоритизировать методологически строгую валидацию и оценивать влияние на клинические решения.
Бенчмаркинг является необходимым для оценки возможностей больших языковых моделей (БЯМ). Однако существующие мультидисциплинарные бенчмарки не имеют специализированных ресурсов для традиционной китайской оперы, области, насыщенной культурной и визуальной сложностью. Для устранения этого пробела мы представляем TCO-Dataset, двуязычный мультидисциплинарный датасет, предназначенный для оценки способности БЯМ интерпретировать и делать выводы на основе изображений китайской оперы. Датасет содержит 1000 вопросов с множественным выбором, paired with высококачественными изображениями из восьми основных жанров оперы. Каждый образец включает тщательно отобранное изображение, соответствующий вопрос, сосредоточенный на культурном и визуальном понимании, и аннотированный ответ для оценки. Датасет поддерживает как китайский, так и английский языки, что позволяет проводить оценку моделей в разных языках. Все элементы были проверены через несколько раундов экспертной валидации для обеспечения согласованности и точности. TCO-Dataset поддерживает разнообразные приложения, включая визуально-культурное рассуждение на основе неподвижных изображений, сохранение культурного наследия и развитие ИИ в специфических областях. Начальные оценки показывают значительные вариации в производительности разных моделей, подчеркивая сложность и ценность датасета для продвижения мультидисциплинарного понимания.
Языковые модели, используемые в ситуациях с высокими ставками, могут потенциально благоприятствовать определенным субъектам, брендам или точкам зрения, влияя на решения пользователей в масштабах. Такие предвзятости могут быть внесены любым участником цепочки поставок модели и представляют наибольшую опасность, когда модель проявляет свои предпочтения только по соответствующей теме, оставаясь при этом идентичной своей незамененной базе по всем другим входным данным. Недавние исследования показали, что эти предвзятости могут передаваться через дистилляцию контекста на семантически не связанных данных, сигнал при этом полностью содержится в распределении мягких логитов и остается невидимым для текстовой инспекции. Однако защитник сталкивается с фундаментальной асимметрией: не зная темы предвзятости, ни один метод обнаружения не может надежно выявить скрытую предвзятость, независимо от того, анализирует ли он сгенерированный текст, внутренние представления или веса модели. В этой работе мы представляем метод Distill to Detect (D2D), который выявляет скрытые предвзятости, дистиллируя смещение распределения между подозреваемой моделью и ее базой в картридж (адаптер префикса KV-кэша), концентрируя доминирующее расхождение и усиливая сигнал предвзятости в сгенерированном тексте. Мы показываем, что D2D успешно усиливает скрытые предвзятости скрытых моделей в такой степени, что они могут быть надежно выявлены по нескольким типам предвзятости. Мы также предлагаем теоретическую основу, которая объясняет эффективность D2D через призму проекции логит-распределения, взвешенного по Фишеру, поддерживаемую эмпирическими наблюдениями. Превращая узкое место в возможности адаптеров префиксной настройки в инструмент обнаружения, D2D предоставляет практическую основу для аудита скрытых поведений в развернутых языковых моделях.
В данной статье рассматривается робастное оптимальное управление в реальном времени для неопределенных нелинейных систем, где линейные временные приближения (LTV) упрощают планирование, но требуют достоверных оценок ошибок линейзации (LEBs) для обеспечения соблюдения устойчивых ограничений. Мы разработали строгие, дифференцируемые оценки ошибок линейзации на GPU для LTV-аппроксимаций нелинейной динамики и динамики нейронных сетей (NN). Для аналитической динамики мы вводим оценки Гессиана на основе пути, которые являются более строгими, чем стандартные интервальные методы. Для динамики NN мы выводим сертифицированные LEB, используя аффинные релаксации, сгенерированные верификатором NN, и локальные коррекции Якобиана. Мы адаптировали парный LTV-составляющий решатель для робастного управления на уровне систем, чтобы он соответствовал этим LEB, расширив его на обработку правообратимых матриц возмущений и нецентрицированных наборов возмущений для строгого зонотопного распространения неопределенности. Наш метод, GPUSLS-LEO, позволяет онлайн-оптимизацию робастных обратных стратегий, учитывающих ошибку линейзации, обеспечивая надежные, формально проверенные достигнутые трубки. На комплексных нелинейных и NN динамиках с размерностями до 168 состояний наш метод может вычислять робастные стратегии управления на GPU со скоростью до 67 Гц, снижая время решения и консервативность по сравнению с базовыми решениями, сохраняя при этом формальные гарантии и производительность в реальном времени.
Агенты LLM все чаще действуют на длинных горизонтах, где одна траектория может содержать сотни или тысячи действий. В таких случаях награды, основанные только на результатах, предоставляют слишком скудные сигналы, не информируя модель о качестве промежуточных действий. Методы плотного контроля旨енты к решению этой проблемы путем оценки промежуточных шагов, начиная от внутренней уверенности и заканчивая самодистилляцией и сходством вложений. Однако обычно эти методы оцениваются путем измерения последующей производительности тренировочного процесса, который интегрирует их. Это дорого, смешивает качество контроля с инженерными факторами обучения и делает различные методологические группы несравнимыми из-за необходимости различных настроек обучения. В результате методы плотного контроля редко проверяются на общем основании. Мы представляем QVal, тестовую платформу без необходимости в обучении для прямой оценки сигналов плотного контроля. Учитывая пару состояние-действие, QVal измеряет, насколько хорошо оценка метода соответствует Q: упорядочивает ли она действия согласно Q-значениям сильной эталонной политики. Это позволяет нам сравнивать сигналы еще до любого запуска обучения и отделять качество сигнала от других инженерных решений. Мы внедрили QVal в виде QVal-v1.0, оценив 21 метод плотного контроля в четырех различных средах и семи методологических группах, проведя более 1,2 тысячи экспериментов по оценке на шести основных моделях с открытыми весами. Мы обнаружили, что простые базовые подходы к подсказкам постоянно превосходят современные методы плотного контроля из литературы, и что производительность сильно кластеризуется по семействам. Эти результаты подтверждаются на различных размерах моделей, средах и модальностях наблюдения. QVal разработан с учетом простоты расширения для новых сред и методов, что позволяет исследователям дорабатывать методы плотного контроля до любого запуска обучения.
Метапознание является критически важной составляющей интеллекта, описывающей способность контролировать и регулировать собственные когнитивные процессы. Тем не менее, большие языковые модели (LLMs) демонстрируют системные недостатки в ключевых метапознавательных функциях: они создают неправильные (галлюцинирующие) ответы с высокой уверенностью, не осознают границы своих знаний и неправильно представляют свою внутреннюю неопределенность, что подрывает доверие и надежность. Учитывая, что мониторинг производительности задач и адаптация поведения в соответствии с этим являются центральными для метапознания, мы предполагаем, что модели, способные точно оценивать свою собственную производительность, лучше подготовлены для ее улучшения. Мы реализуем эту идею через два новых механизма: обучение с подкреплением с метапознавательной обратной связью (RLMF) – парадигму, позволяющую улучшать ранжирование завершений во время оптимизации предпочтений на основе качества самосуждений модели о производительности, и выбор метапознавательных данных, который использует аналогичные самосуждения для выявления ценных обучающих примеров, превосходя наивное активное обучение. Мы применяем эти инновации к проблеме надежной калибровки (FC), которая сама по себе является принципиально метапознавательной задачей: цель заключается в согласовании выраженной и внутренней неопределенности, что сложно даже для передовых LLM. Мы принимаем декомпозированный подход в два этапа: сначала используем эти методы для калибровки надежности самооценок моделей, а затем отображаем на естественную, адаптируемую по контексту языковую неопределенность через целевое редактирование выходных данных. Обширные эксперименты показывают, что RLMF достигает обобщаемой, современной надежной калибровки на различных задачах при сохранении точности. Более того, RLMF превосходит стандартное обучение с подкреплением на 63%, при этом улучшая способность моделей оценивать и выражать собственные пределы возможностей. Это ставит RLMF в качестве многообещающей парадигмы для повышения метапознавательных способностей LLM с целью улучшения возможностей моделирования и соответствия, а также предполагает, что метапознавательная производительность является эффективным сигналом обучения с подкреплением для преодоления ограничений ранее используемых методов внутренней обратной связи.