Искусственный интеллектPubMedScience Morning3 мин чтенияother
Широкомасштабная проверка показала, что легковесные модели могут различать соответствующие и несоответствующие пары «проблема-решение» в разных областях STEM.
A large-scale benchmark shows lightweight models can distinguish matched from mismatched problem-solution pairs across diverse STEM disciplines.
Карточка статьи
Рубрика
Искусственный интеллект
Источник
PubMed
DOI
10.1038/s41598-026-60058-z
Дата
01.07.2026
Автор
Science Morning
Время чтения
3 мин
Краткое резюме
Исследование представило крупномасштабный набор данных для верификации различных пар проблем и решений в STEM. Результаты показывают, что легковесные модели могут эффективно различать соответствующие и несоответствующие пары, обеспечивая высокую точность при меньших вычислительных затратах по сравнению с традиционными методами.
Практический вывод
Легковесные модели могут служить эффективным инструментом для верификации решений в научных исследованиях, обеспечивая баланс между вычислительной эффективностью и высокой точностью.
Ограничения
Основными ограничениями исследования являются использование синтетических негативных примеров, что может влиять на общую оценку точности, и необходимость в дальнейшем тестировании моделей на реальных данных для проверки их применимости в практике.
Понимание причин, стоящих за человеческими выборами в условиях риска, является центральной целью науки о принятии решений, однако традиционные методы, основанные на поведенческих данных, ограничены строгими предположениями о неизменности. Мы представляем масштабируемую аналитическую структуру с использованием больших языковых моделей (BLM) для анализа устных отчетов и выявления сформулированных причин выбора между денежными лотереями. Проверенная BLM точно определила предопределенные причины решений в свободных текстовых отчетах участников, что совпало с их фактическими выборами в 95% случаев. Наш анализ показывает, что причины, лежащие в основе решений людей, варьируются систематически и в большей степени зависят от структуры проблемы выбора, чем от индивидуальных различий. Важно отметить, что причины, полученные из устных отчетов, предоставляют более экономичные и информативные представления процессов принятия решений, чем те, что исходят только из выборов; кроме того, профили причин, специфичных для проблемы, достигают точности предсказаний вне выборки, которая сопоставима с установленными вычислительными моделями. Эта работа демонстрирует, что устные отчеты являются богатым источником данных, и наша аналитическая структура может раскрыть их потенциал, предоставляя результаты, которые ставят под сомнение основные предположения о неизменности в этой области и прокладывают путь к более контекстно чувствительным и интерпретируемым моделям человеческого принятия решений.
Аутизм и расстройства спектра аутизма (РАС) затрагивают десятки миллионов семей по всему миру, однако родители сталкиваются с обилием, но ненадёжными онлайн-советами и ограниченным доступом к своевременному, сочувственному руководству. Чтобы заполнить этот критический пробел, мы разработали Starmate (http://kefeng.mpu.edu.mo/starmate) — ИИ-ассистент с 1,5 миллиарда параметров, адаптированный для опекунов людей с РАС, используя строгую ориентированную на пользователя смешанную методологию. На основе углублённых интервью и опроса Kano, который выявил «практическое руководство» как необходимое требование для опекунов, мы сконструировали новую модульную архитектуру, интегрирующую анализ настроений, извлечение знаний на основе графов, проверенное экспертами (LightRAG), и модель Qwen2.5-1.5B, специально подстроенную под нашу домен. В слепом сравнении с ведущими коммерческими крупными языковыми моделями, Starmate показал улучшенные результаты по ключевым метрикам в рамках данной оценки (86.76 против 78.43-83.84) и продемонстрировал конкретные преимущества в области эмпатии, практического руководства и логической ясности. Автоматизированное бенчмаркинг также подтвердило эти результаты, с высокими оценками по профессиональной точности (86.18), эмпатии (86.79) и практическому руководству (82.58). Эти результаты демонстрируют техническую возможность легковесной, ориентированной на конфиденциальность, специализированной крупной языковой модели для генерации точных, эмпатичных и действенных ответов в бенчмаркинговых сценариях, создавая основу для будущей реальной пригодности и клинического тестирования.
Исследование посвящено использованию многофазных моделей с подсказками для автоматизации процесса генерации клинических отчетов о лекарственных препаратах. Основное внимание уделяется применению таких моделей в области ветеринарии, где проводились эксперименты на животных для оценки эффективности данной методологии.
Бесконтактное сенсирование на основе информации о состоянии канала Wi-Fi (CSI) продемонстрировало значительный потенциал в распознавании человеческой активности и локализации в помещениях. Однако совместное решение этих двух задач остается сложной задачей, поскольку сырые сигналы CSI, как правило, страдают от высокой размерности каналов, не относящихся к задаче, и временно запутанных многомасштабных флуктуаций. В этой работе предлагается структура двойного обучения, которая акцентирует внимание на конструировании подпространства, согласованного с задачами, и структурированном временном разложении. В частности, разработан модуль многоцелевого переранжированного подпространства главных компонент (MARS-PCA), который переоценивает главные компоненты в соответствии с их дискриминативной значимостью как для распознавания активности, так и для локализации, тем самым сохраняя компактное представление CSI, более соответствующее двойной задаче. Вдобавок, представлен многоуровневый фронтенд с вейвлет-разложением для разделения временных откликов CSI на подполосные компоненты, позволяя более явно представлять динамику, связанную с временной активностью, и относительно стабильные паттерны, связанные с местоположением. Затем уточненные и разложенные характеристики моделируются с помощью легковесного модуля временного предсказания с регуляцией задач по каналам. Эксперименты на публичном наборе данных WiFi CSI показывают, что предложенный метод демонстрирует хорошие результаты как в распознавании активности, так и в indoor локализации.
Бенчмаркинг является необходимым для оценки возможностей больших языковых моделей (БЯМ). Однако существующие мультидисциплинарные бенчмарки не имеют специализированных ресурсов для традиционной китайской оперы, области, насыщенной культурной и визуальной сложностью. Для устранения этого пробела мы представляем TCO-Dataset, двуязычный мультидисциплинарный датасет, предназначенный для оценки способности БЯМ интерпретировать и делать выводы на основе изображений китайской оперы. Датасет содержит 1000 вопросов с множественным выбором, paired with высококачественными изображениями из восьми основных жанров оперы. Каждый образец включает тщательно отобранное изображение, соответствующий вопрос, сосредоточенный на культурном и визуальном понимании, и аннотированный ответ для оценки. Датасет поддерживает как китайский, так и английский языки, что позволяет проводить оценку моделей в разных языках. Все элементы были проверены через несколько раундов экспертной валидации для обеспечения согласованности и точности. TCO-Dataset поддерживает разнообразные приложения, включая визуально-культурное рассуждение на основе неподвижных изображений, сохранение культурного наследия и развитие ИИ в специфических областях. Начальные оценки показывают значительные вариации в производительности разных моделей, подчеркивая сложность и ценность датасета для продвижения мультидисциплинарного понимания.
Мультимодальные подходы в области искусственного интеллекта (ИИ), интегрирующие разнородные источники данных, представляют собой новую границу в оценке фиброза печени. Тем не менее, использование мультимодального ИИ для стадирования фиброза печени было лишь предварительно исследовано, и существующие данные ограничены значительными методологическими пробелами. Этот обзор aims был направлен на полное картирование текущих данных о мультимодальных ИИ моделях, которые интегрируют медицинскую визуализацию с другими категориями данных для прогнозирования стадии фиброза печени. Следуя методологии Института Джоанны Бриггс и рекомендациям PRISMA-ScR, мы провели поиск в MEDLINE, Web of Science, CENTRAL и IEEE Xplore 12 августа 2025 года. В исследования были включены работы, разрабатывающие модели ИИ или машинного обучения для прогнозирования фиброза печени и интегрирующие как минимум одну визуализационную модальность с разнородными категориями данных (например, клинические параметры или сывороточные биомаркеры). Три рецензента независимо отобрали записи, и извлеченные данные были независимо проверены двумя дополнительными рецензентами. Из 2849 записей 21 исследование соответствовало критериям допуска, что дало 34 различных мультимодальных ИИ модели. Исследования были географически сосредоточены в Китае (81%) и в основном фокусировались на заболеваниях печени, связанных с гепатитом B. Наиболее распространенным подходом были радиомика на основе КТ, комбинированная с сывороточными биомаркерами, в то время как архитектуры глубокого обучения применялись реже. В 107 оценках AUC медиана AUC составила 0.890 (межквартильный диапазон 0.850-0.925). AUC внешней валидации (12 оценок из 6 исследований) варьировалась от 0.808 до 0.990; 3 оценки внутреннего тестирования из одного исследования оказались ниже 0.70. Тем не менее, внешний контроль был представлен только у 20.6% моделей, при этом отчетность о калибровке и анализ кривой принятия решений были описаны в 23.1% и 24.1% оценок соответственно. Этот обзор выявил начинающуюся область с об encouraging диагностической производительностью, но с существенными пробелами во внешней валидации, отчетности о калибровке и оценке клинической полезности. Будущие исследования должны приоритизировать методологически строгую валидацию и оценивать влияние на клинические решения.