Искусственный интеллектPubMedScience Morning3 мин чтенияreview

Мультидисциплинарный эталонный датасет для оценки больших языковых моделей в области понимания традиционной китайской оперы.

A multimodal benchmark dataset for evaluating large language models on traditional Chinese opera understanding.

Рубрика
Искусственный интеллект
Источник
PubMed
DOI
10.1038/s41597-026-07611-7
Дата
01.07.2026
Автор
Science Morning
Время чтения
3 мин
Искусственный интеллект

Аннотация

Бенчмаркинг является необходимым для оценки возможностей больших языковых моделей (БЯМ). Однако существующие мультидисциплинарные бенчмарки не имеют специализированных ресурсов для традиционной китайской оперы, области, насыщенной культурной и визуальной сложностью. Для устранения этого пробела мы представляем TCO-Dataset, двуязычный мультидисциплинарный датасет, предназначенный для оценки способности БЯМ интерпретировать и делать выводы на основе изображений китайской оперы. Датасет содержит 1000 вопросов с множественным выбором, paired with высококачественными изображениями из восьми основных жанров оперы. Каждый образец включает тщательно отобранное изображение, соответствующий вопрос, сосредоточенный на культурном и визуальном понимании, и аннотированный ответ для оценки. Датасет поддерживает как китайский, так и английский языки, что позволяет проводить оценку моделей в разных языках. Все элементы были проверены через несколько раундов экспертной валидации для обеспечения согласованности и точности. TCO-Dataset поддерживает разнообразные приложения, включая визуально-культурное рассуждение на основе неподвижных изображений, сохранение культурного наследия и развитие ИИ в специфических областях. Начальные оценки показывают значительные вариации в производительности разных моделей, подчеркивая сложность и ценность датасета для продвижения мультидисциплинарного понимания.

Краткое резюме

Данный датасет представляет собой уникальный ресурс для оценки больших языковых моделей в контексте традиционной китайской оперы. Он включает 1000 вопросов с изображениями из восьми жанров оперы и ориентирован на тестирование культурного и визуального понимания моделей на двух языках.

Практический вывод

TCO-Dataset предоставляет исследователям и разработчикам мощный инструмент для оценки и развития моделей, ориентированных на культурные аспекты, что важно для сохранения и распространения знания о традиционной китайской опере.

Ограничения

Основные ограничения исследования связаны с возможной неполнотой отображения всех жанров китайской оперы в датасете, а также с возможными культурными и языковыми нюансами, которые могут быть упущены при оценке моделей.

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Искусственный интеллект
Искусственный интеллект
77%

Надежно ли производительность-оптимизационные бенчмарки измеряют качество кода агентов?

Бенчмарки производительности на уровне репозитория, такие как GSO, SWE-Perf и SWE-fficiency, оценивают кодирующие агенты, применяя патчи к реальным репозиториям и сравнивая время выполнения с неоптимизированными базовыми версиями и официальными эталонными патчами. Их ранговые баллы все чаще используются как доказательство прогресса кодирующих агентов, но эти баллы могут путать нестабильность времени выполнения, специфические правила оценки бенчмарков и количество задач, уже решенных хотя бы одним публичным представлением. Мы проводим аудит этих вопросов по трем бенчмаркам. Во-первых, мы повторяем официальные эталонные патчи для 740 задач оптимизации кода на четырех распространенных типах машин Google Cloud. Большинство задач бенчмарка можно воспроизвести, но их эталонные патчи удовлетворяют оригинальным правилам действительности бенчмарка в каждом взаимном воспроизведении только для 39 из 102 задач GSO, 11 из 140 задач SWE-Perf и 411 из 498 задач SWE-fficiency; SWE-Perf особенно хрупок, поскольку многие эталонные патчи приводят к изменениям времени выполнения, близким к нулю. Во-вторых, мы показываем, что рейтинги публичных представлений сильно зависят от правил оценки бенчмарка. Среди восьми публичных представлений, представленных GSO и SWE-fficiency, официальные рейтинги расходятся по 9 из 28 парных сравнений представлений, а правила оценки рангового списка SWE-fficiency присваивают наихудшим десяти задачам неоправданно высокие веса баллов от 58,5% до 82,8%. В-третьих, если взглянуть на 10 публичных представлений для каждой задачи, мы обнаруживаем, что хотя бы одно представление соответствует или превосходит эталонный патч по 85,3% (384 из 450) задач GSO и SWE-fficiency и превосходит неоптимизированный базовый код по 99,8% (449 из 450). Наше исследование дополняет ранговые баллы, выявляя задачи с более надежными показателями производительности, количественно оценивая вклады в баллы по задачам и раскрывая оставшиеся разрывы в производительности, которые скрыты под агрегированными рейтингами.

Искусственный интеллект
Искусственный интеллект
72%

Большие языковые модели точно определяют причины решений в устных отчетах.

Понимание причин, стоящих за человеческими выборами в условиях риска, является центральной целью науки о принятии решений, однако традиционные методы, основанные на поведенческих данных, ограничены строгими предположениями о неизменности. Мы представляем масштабируемую аналитическую структуру с использованием больших языковых моделей (BLM) для анализа устных отчетов и выявления сформулированных причин выбора между денежными лотереями. Проверенная BLM точно определила предопределенные причины решений в свободных текстовых отчетах участников, что совпало с их фактическими выборами в 95% случаев. Наш анализ показывает, что причины, лежащие в основе решений людей, варьируются систематически и в большей степени зависят от структуры проблемы выбора, чем от индивидуальных различий. Важно отметить, что причины, полученные из устных отчетов, предоставляют более экономичные и информативные представления процессов принятия решений, чем те, что исходят только из выборов; кроме того, профили причин, специфичных для проблемы, достигают точности предсказаний вне выборки, которая сопоставима с установленными вычислительными моделями. Эта работа демонстрирует, что устные отчеты являются богатым источником данных, и наша аналитическая структура может раскрыть их потенциал, предоставляя результаты, которые ставят под сомнение основные предположения о неизменности в этой области и прокладывают путь к более контекстно чувствительным и интерпретируемым моделям человеческого принятия решений.

Искусственный интеллект
Искусственный интеллект
72%

Генерация клинических отчетов о лекарственных препаратах с использованием многофазных моделей с подсказками.

Исследование посвящено использованию многофазных моделей с подсказками для автоматизации процесса генерации клинических отчетов о лекарственных препаратах. Основное внимание уделяется применению таких моделей в области ветеринарии, где проводились эксперименты на животных для оценки эффективности данной методологии.

Искусственный интеллект
Искусственный интеллект
72%

Широкомасштабная проверка показала, что легковесные модели могут различать соответствующие и несоответствующие пары «проблема-решение» в разных областях STEM.

Подтверждение того, что предложенное решение действительно решает научную проблему, является ключевым аспектом надежного рассуждения и поиска информации. Используя SCP-116K, мы создали 177 836 сбалансированных пар «проблема-решение» (88 918 соответствующих и 88 918 несоответствующих), охватывающих различные области STEM, и представили верификацию, следуя TRIZ/IDM, как различение соответствующих и несоответствующих пар. Сравнивая лексические, поисковые и легковесные нейронные модели, наша лучшая модель (RoBERTa + Slim ResNet, замороженные векторные представления предложений, оцененные с помощью остаточной MLP) достигает AUC 0.966, F1 0.905 и LogLoss 0.238. Базовая линия TF-IDF + Cosine + Elastic-Net, которая не требует больших ресурсов, отстает на 1.6-1.7 баллов AUC, но работает примерно в 250 раз быстрее и использует около 1.5 ГБ ОЗУ, что демонстрирует сильное соотношение эффективности и точности. Вероятности служат оценками повторного ранжирования среди кандидатных решений; мы интерпретируем высокий ROC-AUC как парное различение, а абсолютную точность как верхнюю границу, учитывая синтетические негативные примеры.

Искусственный интеллект
Искусственный интеллект
72%

Мультимодальные модели искусственного интеллекта для стадирования фиброза печени: обзор.

Мультимодальные подходы в области искусственного интеллекта (ИИ), интегрирующие разнородные источники данных, представляют собой новую границу в оценке фиброза печени. Тем не менее, использование мультимодального ИИ для стадирования фиброза печени было лишь предварительно исследовано, и существующие данные ограничены значительными методологическими пробелами. Этот обзор aims был направлен на полное картирование текущих данных о мультимодальных ИИ моделях, которые интегрируют медицинскую визуализацию с другими категориями данных для прогнозирования стадии фиброза печени. Следуя методологии Института Джоанны Бриггс и рекомендациям PRISMA-ScR, мы провели поиск в MEDLINE, Web of Science, CENTRAL и IEEE Xplore 12 августа 2025 года. В исследования были включены работы, разрабатывающие модели ИИ или машинного обучения для прогнозирования фиброза печени и интегрирующие как минимум одну визуализационную модальность с разнородными категориями данных (например, клинические параметры или сывороточные биомаркеры). Три рецензента независимо отобрали записи, и извлеченные данные были независимо проверены двумя дополнительными рецензентами. Из 2849 записей 21 исследование соответствовало критериям допуска, что дало 34 различных мультимодальных ИИ модели. Исследования были географически сосредоточены в Китае (81%) и в основном фокусировались на заболеваниях печени, связанных с гепатитом B. Наиболее распространенным подходом были радиомика на основе КТ, комбинированная с сывороточными биомаркерами, в то время как архитектуры глубокого обучения применялись реже. В 107 оценках AUC медиана AUC составила 0.890 (межквартильный диапазон 0.850-0.925). AUC внешней валидации (12 оценок из 6 исследований) варьировалась от 0.808 до 0.990; 3 оценки внутреннего тестирования из одного исследования оказались ниже 0.70. Тем не менее, внешний контроль был представлен только у 20.6% моделей, при этом отчетность о калибровке и анализ кривой принятия решений были описаны в 23.1% и 24.1% оценок соответственно. Этот обзор выявил начинающуюся область с об encouraging диагностической производительностью, но с существенными пробелами во внешней валидации, отчетности о калибровке и оценке клинической полезности. Будущие исследования должны приоритизировать методологически строгую валидацию и оценивать влияние на клинические решения.

Искусственный интеллект
Искусственный интеллект
72%

Комментарий к статье 'Многоуровневая экспертная оценка ведущих крупных языковых моделей как источников информации о вакцинации и профилактической медицине'.

В данной статье представляется обзор работы, посвященной оценке крупных языковых моделей в контексте их способности предоставлять точную информацию о вакцинации и профилактической медицине. Обсуждаются методы, использованные для экспертизы, и выводы, сделанные на основе анализа.