Искусственный интеллект30.06.2026PubMedScience Morning3 мин чтенияother

Комментарий к статье 'Многоуровневая экспертная оценка ведущих крупных языковых моделей как источников информации о вакцинации и профилактической медицине'.

Comment on 'Multidomain expert evaluation of leading large language models as providers of vaccination and preventive medicine information'.

Карточка статьи

Рубрика: Искусственный интеллект
Источник: PubMed
DOI: 10.1016/j.puhe.2026.106390
Дата: 30.06.2026
Автор: Science Morning
Время чтения: 3 мин

Краткое резюме

В данной статье представляется обзор работы, посвященной оценке крупных языковых моделей в контексте их способности предоставлять точную информацию о вакцинации и профилактической медицине. Обсуждаются методы, использованные для экспертизы, и выводы, сделанные на основе анализа.

Практический вывод

Использование крупных языковых моделей в области медицинской информации требует внимательной оценки их способностей и возможных ограничений, чтобы обеспечить точность и надежность предоставляемой информации.

Ограничения

Ограничения исследования могут включать недостаточную репрезентативность данных, отсутствие учета контекста запроса, а также возможность предвзятости в исходных обучающих данных языковых моделей.

Дальше по теме

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Искусственный интеллект7 июля 2026 г.

72%

Предвосхищающая и тематически специфическая нейронная осцилляция предсказывает эстетическую оценку поэзии.

Поэзия конденсирует язык в минимальные формы, вызывая эмоции, визуальные образы и эстетические суждения, однако нейронная основа таких оценок остается плохо изученной. Мы исследовали, как мозг оценивает две структурно сопоставленные, но тематически разные поэтические формы: хайку на тему природы и сенрю на тему эмоций. Участники читали стихи и оценивали их по пяти критериям - эстетическая привлекательность, яркость образов, эмоциональная вовлеченность, оригинальность и креативность - в то время как записывалась ЭЭГ. Используя многоклассовые модели градиентного бустинга с SHapley Additive exPlanations, мы предсказали оценочные рейтинги на основе осцилляторных нейронных характеристик в разных временных окнах и областях скальпа. Модели показали лучшие результаты по сравнению с линейными базовыми моделями и имели ограниченную обобщаемость между темами, указывая на контентно-специфическое нейронное кодирование. Обнаружились различия в процессах обработки: сенрю продемонстрировала более сильные вкладки в бета-диапазон, в то время как хайку задействовало более распределенные многочастотные динамики. Временные профили также различались, при этом хайку показывало устойчивое вовлечение на этапах чтения и размышления, а сенрю демонстрировала более раннюю оценку во время чтения. Предшествующая нейронная активность способствовала предсказанию последующих оценок, что предполагает роль предвосхищающего состояния мозга в эстетической оценке. По всем стихотворениям оценочные измерения сходились на доминирующей общей оси, которая надежно предсказывалась на основе нейронных характеристик. В совокупности эти результаты указывают на то, что эстетическая оценка поэзии отражает взаимодействие между предвосхищающими нейронными состояниями, контентно-специфической осцилляторной динамикой и процессами, специфичными для измерений, организованными вокруг общей оценочной оси. Эта работа устанавливает поэзию как удобную модельную систему для изучения того, как мозг конструирует смысл и ценность из минимального языкового ввода.

PubMedЧитать

Искусственный интеллект7 июля 2026 г.

72%

Большие языковые модели точно определяют причины решений в устных отчетах.

Понимание причин, стоящих за человеческими выборами в условиях риска, является центральной целью науки о принятии решений, однако традиционные методы, основанные на поведенческих данных, ограничены строгими предположениями о неизменности. Мы представляем масштабируемую аналитическую структуру с использованием больших языковых моделей (BLM) для анализа устных отчетов и выявления сформулированных причин выбора между денежными лотереями. Проверенная BLM точно определила предопределенные причины решений в свободных текстовых отчетах участников, что совпало с их фактическими выборами в 95% случаев. Наш анализ показывает, что причины, лежащие в основе решений людей, варьируются систематически и в большей степени зависят от структуры проблемы выбора, чем от индивидуальных различий. Важно отметить, что причины, полученные из устных отчетов, предоставляют более экономичные и информативные представления процессов принятия решений, чем те, что исходят только из выборов; кроме того, профили причин, специфичных для проблемы, достигают точности предсказаний вне выборки, которая сопоставима с установленными вычислительными моделями. Эта работа демонстрирует, что устные отчеты являются богатым источником данных, и наша аналитическая структура может раскрыть их потенциал, предоставляя результаты, которые ставят под сомнение основные предположения о неизменности в этой области и прокладывают путь к более контекстно чувствительным и интерпретируемым моделям человеческого принятия решений.

PubMedЧитать

Искусственный интеллект2 июля 2026 г.

72%

Генерация клинических отчетов о лекарственных препаратах с использованием многофазных моделей с подсказками.

Исследование посвящено использованию многофазных моделей с подсказками для автоматизации процесса генерации клинических отчетов о лекарственных препаратах. Основное внимание уделяется применению таких моделей в области ветеринарии, где проводились эксперименты на животных для оценки эффективности данной методологии.

PubMedЧитать

Искусственный интеллект1 июля 2026 г.

72%

Расшифровка терапевтического и профилактического потенциала диетических танинов при остеосаркоме: многоомный подход, нацеленный на TGFA и ремоделирование иммунной микросреды.

Злокачественные опухоли, включая остеосаркому (ОС), являются основными неинфекционными хроническими заболеваниями, обусловленными системным воспалением и окислительным стрессом. Хотя известно, что диетические танины обладают антиоксидантными и противораковыми свойствами, их точные регуляторные механизмы и терапевтические мишени при ОС остаются в значительной степени неизученными. Это исследование интегрировало многоомные наборы данных для систематического изучения потенциала диетических танинов при ОС, используя машинно-обучающий фреймворк, основанный на 10 алгоритмах, для построения риска, связанного с танинами (TRR). Модель TRR продемонстрировала благоприятные прогностические характеристики в ретроспективных когортах, причем у пациентов с высоким TRR наблюдалось худшее выживание, обогащение путями ремоделирования экстрацеллюлярного матрикса и уменьшение инфильтрации CD8T-клеток. Кроме того, инструменты предсказания иммунотерапии предположили более низкую вероятность отклика на блокаду иммунных контрольных точек в группе с высоким TRR. TGFA был выявлен как ключевой ген-центр, способствующий высокому рисковому фенотипу; анализы одноядерной и пространственной транскриптомики показали, что клетки ОС с высоким уровнем TGFA обладают стволовыми характеристиками и усиленной коммуникацией с микросредой. В vitro-тесты подтвердили, что нокаут TGFA подавляет пролиферацию и миграцию клеток ОС, одновременно повышая апоптоз, в то время как переэкспрессия TGFA способствует данным злокачественным действиям. Объединив исследования диетических полифенолов с онкологическим управлением, это исследование определяет иммуноосевую ось, ассоциированную с TGFA, как точную молекулярную дорожную карту для структурной модификации полифенолов и разработки целевых функциональных продуктов на основе танинов для вмешательства в хронические заболевания.

PubMedЧитать

Искусственный интеллект1 июля 2026 г.

72%

Мультидисциплинарный эталонный датасет для оценки больших языковых моделей в области понимания традиционной китайской оперы.

Бенчмаркинг является необходимым для оценки возможностей больших языковых моделей (БЯМ). Однако существующие мультидисциплинарные бенчмарки не имеют специализированных ресурсов для традиционной китайской оперы, области, насыщенной культурной и визуальной сложностью. Для устранения этого пробела мы представляем TCO-Dataset, двуязычный мультидисциплинарный датасет, предназначенный для оценки способности БЯМ интерпретировать и делать выводы на основе изображений китайской оперы. Датасет содержит 1000 вопросов с множественным выбором, paired with высококачественными изображениями из восьми основных жанров оперы. Каждый образец включает тщательно отобранное изображение, соответствующий вопрос, сосредоточенный на культурном и визуальном понимании, и аннотированный ответ для оценки. Датасет поддерживает как китайский, так и английский языки, что позволяет проводить оценку моделей в разных языках. Все элементы были проверены через несколько раундов экспертной валидации для обеспечения согласованности и точности. TCO-Dataset поддерживает разнообразные приложения, включая визуально-культурное рассуждение на основе неподвижных изображений, сохранение культурного наследия и развитие ИИ в специфических областях. Начальные оценки показывают значительные вариации в производительности разных моделей, подчеркивая сложность и ценность датасета для продвижения мультидисциплинарного понимания.

PubMedЧитать

Искусственный интеллект1 июля 2026 г.

72%

Широкомасштабная проверка показала, что легковесные модели могут различать соответствующие и несоответствующие пары «проблема-решение» в разных областях STEM.

Подтверждение того, что предложенное решение действительно решает научную проблему, является ключевым аспектом надежного рассуждения и поиска информации. Используя SCP-116K, мы создали 177 836 сбалансированных пар «проблема-решение» (88 918 соответствующих и 88 918 несоответствующих), охватывающих различные области STEM, и представили верификацию, следуя TRIZ/IDM, как различение соответствующих и несоответствующих пар. Сравнивая лексические, поисковые и легковесные нейронные модели, наша лучшая модель (RoBERTa + Slim ResNet, замороженные векторные представления предложений, оцененные с помощью остаточной MLP) достигает AUC 0.966, F1 0.905 и LogLoss 0.238. Базовая линия TF-IDF + Cosine + Elastic-Net, которая не требует больших ресурсов, отстает на 1.6-1.7 баллов AUC, но работает примерно в 250 раз быстрее и использует около 1.5 ГБ ОЗУ, что демонстрирует сильное соотношение эффективности и точности. Вероятности служат оценками повторного ранжирования среди кандидатных решений; мы интерпретируем высокий ROC-AUC как парное различение, а абсолютную точность как верхнюю границу, учитывая синтетические негативные примеры.

PubMedЧитать