Искусственный интеллектPubMedScience Morning3 мин чтенияother
Комментарий к статье 'Многоуровневая экспертная оценка ведущих крупных языковых моделей как источников информации о вакцинации и профилактической медицине'.
Comment on 'Multidomain expert evaluation of leading large language models as providers of vaccination and preventive medicine information'.
Карточка статьи
Рубрика
Искусственный интеллект
Источник
PubMed
DOI
10.1016/j.puhe.2026.106390
Дата
30.06.2026
Автор
Science Morning
Время чтения
3 мин
Краткое резюме
В данной статье представляется обзор работы, посвященной оценке крупных языковых моделей в контексте их способности предоставлять точную информацию о вакцинации и профилактической медицине. Обсуждаются методы, использованные для экспертизы, и выводы, сделанные на основе анализа.
Практический вывод
Использование крупных языковых моделей в области медицинской информации требует внимательной оценки их способностей и возможных ограничений, чтобы обеспечить точность и надежность предоставляемой информации.
Ограничения
Ограничения исследования могут включать недостаточную репрезентативность данных, отсутствие учета контекста запроса, а также возможность предвзятости в исходных обучающих данных языковых моделей.
Поэзия конденсирует язык в минимальные формы, вызывая эмоции, визуальные образы и эстетические суждения, однако нейронная основа таких оценок остается плохо изученной. Мы исследовали, как мозг оценивает две структурно сопоставленные, но тематически разные поэтические формы: хайку на тему природы и сенрю на тему эмоций. Участники читали стихи и оценивали их по пяти критериям - эстетическая привлекательность, яркость образов, эмоциональная вовлеченность, оригинальность и креативность - в то время как записывалась ЭЭГ. Используя многоклассовые модели градиентного бустинга с SHapley Additive exPlanations, мы предсказали оценочные рейтинги на основе осцилляторных нейронных характеристик в разных временных окнах и областях скальпа. Модели показали лучшие результаты по сравнению с линейными базовыми моделями и имели ограниченную обобщаемость между темами, указывая на контентно-специфическое нейронное кодирование. Обнаружились различия в процессах обработки: сенрю продемонстрировала более сильные вкладки в бета-диапазон, в то время как хайку задействовало более распределенные многочастотные динамики. Временные профили также различались, при этом хайку показывало устойчивое вовлечение на этапах чтения и размышления, а сенрю демонстрировала более раннюю оценку во время чтения. Предшествующая нейронная активность способствовала предсказанию последующих оценок, что предполагает роль предвосхищающего состояния мозга в эстетической оценке. По всем стихотворениям оценочные измерения сходились на доминирующей общей оси, которая надежно предсказывалась на основе нейронных характеристик. В совокупности эти результаты указывают на то, что эстетическая оценка поэзии отражает взаимодействие между предвосхищающими нейронными состояниями, контентно-специфической осцилляторной динамикой и процессами, специфичными для измерений, организованными вокруг общей оценочной оси. Эта работа устанавливает поэзию как удобную модельную систему для изучения того, как мозг конструирует смысл и ценность из минимального языкового ввода.
Понимание причин, стоящих за человеческими выборами в условиях риска, является центральной целью науки о принятии решений, однако традиционные методы, основанные на поведенческих данных, ограничены строгими предположениями о неизменности. Мы представляем масштабируемую аналитическую структуру с использованием больших языковых моделей (BLM) для анализа устных отчетов и выявления сформулированных причин выбора между денежными лотереями. Проверенная BLM точно определила предопределенные причины решений в свободных текстовых отчетах участников, что совпало с их фактическими выборами в 95% случаев. Наш анализ показывает, что причины, лежащие в основе решений людей, варьируются систематически и в большей степени зависят от структуры проблемы выбора, чем от индивидуальных различий. Важно отметить, что причины, полученные из устных отчетов, предоставляют более экономичные и информативные представления процессов принятия решений, чем те, что исходят только из выборов; кроме того, профили причин, специфичных для проблемы, достигают точности предсказаний вне выборки, которая сопоставима с установленными вычислительными моделями. Эта работа демонстрирует, что устные отчеты являются богатым источником данных, и наша аналитическая структура может раскрыть их потенциал, предоставляя результаты, которые ставят под сомнение основные предположения о неизменности в этой области и прокладывают путь к более контекстно чувствительным и интерпретируемым моделям человеческого принятия решений.
Исследование посвящено использованию многофазных моделей с подсказками для автоматизации процесса генерации клинических отчетов о лекарственных препаратах. Основное внимание уделяется применению таких моделей в области ветеринарии, где проводились эксперименты на животных для оценки эффективности данной методологии.
Злокачественные опухоли, включая остеосаркому (ОС), являются основными неинфекционными хроническими заболеваниями, обусловленными системным воспалением и окислительным стрессом. Хотя известно, что диетические танины обладают антиоксидантными и противораковыми свойствами, их точные регуляторные механизмы и терапевтические мишени при ОС остаются в значительной степени неизученными. Это исследование интегрировало многоомные наборы данных для систематического изучения потенциала диетических танинов при ОС, используя машинно-обучающий фреймворк, основанный на 10 алгоритмах, для построения риска, связанного с танинами (TRR). Модель TRR продемонстрировала благоприятные прогностические характеристики в ретроспективных когортах, причем у пациентов с высоким TRR наблюдалось худшее выживание, обогащение путями ремоделирования экстрацеллюлярного матрикса и уменьшение инфильтрации CD8T-клеток. Кроме того, инструменты предсказания иммунотерапии предположили более низкую вероятность отклика на блокаду иммунных контрольных точек в группе с высоким TRR. TGFA был выявлен как ключевой ген-центр, способствующий высокому рисковому фенотипу; анализы одноядерной и пространственной транскриптомики показали, что клетки ОС с высоким уровнем TGFA обладают стволовыми характеристиками и усиленной коммуникацией с микросредой. В vitro-тесты подтвердили, что нокаут TGFA подавляет пролиферацию и миграцию клеток ОС, одновременно повышая апоптоз, в то время как переэкспрессия TGFA способствует данным злокачественным действиям. Объединив исследования диетических полифенолов с онкологическим управлением, это исследование определяет иммуноосевую ось, ассоциированную с TGFA, как точную молекулярную дорожную карту для структурной модификации полифенолов и разработки целевых функциональных продуктов на основе танинов для вмешательства в хронические заболевания.
Бенчмаркинг является необходимым для оценки возможностей больших языковых моделей (БЯМ). Однако существующие мультидисциплинарные бенчмарки не имеют специализированных ресурсов для традиционной китайской оперы, области, насыщенной культурной и визуальной сложностью. Для устранения этого пробела мы представляем TCO-Dataset, двуязычный мультидисциплинарный датасет, предназначенный для оценки способности БЯМ интерпретировать и делать выводы на основе изображений китайской оперы. Датасет содержит 1000 вопросов с множественным выбором, paired with высококачественными изображениями из восьми основных жанров оперы. Каждый образец включает тщательно отобранное изображение, соответствующий вопрос, сосредоточенный на культурном и визуальном понимании, и аннотированный ответ для оценки. Датасет поддерживает как китайский, так и английский языки, что позволяет проводить оценку моделей в разных языках. Все элементы были проверены через несколько раундов экспертной валидации для обеспечения согласованности и точности. TCO-Dataset поддерживает разнообразные приложения, включая визуально-культурное рассуждение на основе неподвижных изображений, сохранение культурного наследия и развитие ИИ в специфических областях. Начальные оценки показывают значительные вариации в производительности разных моделей, подчеркивая сложность и ценность датасета для продвижения мультидисциплинарного понимания.
Подтверждение того, что предложенное решение действительно решает научную проблему, является ключевым аспектом надежного рассуждения и поиска информации. Используя SCP-116K, мы создали 177 836 сбалансированных пар «проблема-решение» (88 918 соответствующих и 88 918 несоответствующих), охватывающих различные области STEM, и представили верификацию, следуя TRIZ/IDM, как различение соответствующих и несоответствующих пар. Сравнивая лексические, поисковые и легковесные нейронные модели, наша лучшая модель (RoBERTa + Slim ResNet, замороженные векторные представления предложений, оцененные с помощью остаточной MLP) достигает AUC 0.966, F1 0.905 и LogLoss 0.238. Базовая линия TF-IDF + Cosine + Elastic-Net, которая не требует больших ресурсов, отстает на 1.6-1.7 баллов AUC, но работает примерно в 250 раз быстрее и использует около 1.5 ГБ ОЗУ, что демонстрирует сильное соотношение эффективности и точности. Вероятности служат оценками повторного ранжирования среди кандидатных решений; мы интерпретируем высокий ROC-AUC как парное различение, а абсолютную точность как верхнюю границу, учитывая синтетические негативные примеры.