Искусственный интеллектarXivScience Morning3 мин чтенияpreprint
Когда большие языковые модели невнимательно читают таблицы: измерение и снижение ошибок ссылок на данные
When LLMs Read Tables Carelessly: Measuring and Reducing Data Referencing Errors
Карточка статьи
Рубрика
Искусственный интеллект
Источник
arXiv
Дата
30.06.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Аннотация
Хотя большие языковые модели (БЯМ) хорошо справляются с задачами, связанными с таблицами, они все же совершают ошибки при ссылках на данные (ЭСД), то есть неправильно цитируют или опускают значения из таблиц, несмотря на понимание их структуры. Кроме того, что ошибки при ссылках на данные влияют на точность финальных ответов, они прямо ставят под сомнение корректность и надежность промежуточных шагов рассуждения. Однако предыдущие исследования предлагали лишь ограниченные и мелкомасштабные анализы. В данной работе мы представляем первую систематическую оценку ошибок ссылок на табличные данные в различных моделях и задачах. Наши результаты показывают, что ЭСД встречаются во всех протестированных моделях (от 1.7 до 20 миллиардов параметров). Кроме того, мы демонстрируем, что внедрение ссылок на данные в качестве критика значительно улучшает точность ответов на 12.0% с помощью фильтрации на основе критика и выборки для отклонения. В заключение, мы обучили легкую модель критика с 4 миллиардами параметров, которая достигает средней F1 оценки 78.2% в обнаружении как внутрираспределенных, так и внераспределенных ЭСД и эффективно способствует выводу для более крупных моделей.
Краткое резюме
Исследование анализирует ошибки ссылок на данные, возникающие у больших языковых моделей при работе с таблицами, и показывает, как внедрение критических оценок может улучшить точность ответов. Обнаружено, что все протестированные модели страдают от данных ошибок, и предложены решения по их снижению.
Практический вывод
Внедрение механизмов критического анализа данных может значительно повысить точность ответов больших языковых моделей при работе с табличными данными.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Исследование фокусируется только на ошибках ссылок на данные и не рассматривает другие возможные ошибки, которые могут возникать в процессе обработки информации большими языковыми моделями.
Подтверждение того, что предложенное решение действительно решает научную проблему, является ключевым аспектом надежного рассуждения и поиска информации. Используя SCP-116K, мы создали 177 836 сбалансированных пар «проблема-решение» (88 918 соответствующих и 88 918 несоответствующих), охватывающих различные области STEM, и представили верификацию, следуя TRIZ/IDM, как различение соответствующих и несоответствующих пар. Сравнивая лексические, поисковые и легковесные нейронные модели, наша лучшая модель (RoBERTa + Slim ResNet, замороженные векторные представления предложений, оцененные с помощью остаточной MLP) достигает AUC 0.966, F1 0.905 и LogLoss 0.238. Базовая линия TF-IDF + Cosine + Elastic-Net, которая не требует больших ресурсов, отстает на 1.6-1.7 баллов AUC, но работает примерно в 250 раз быстрее и использует около 1.5 ГБ ОЗУ, что демонстрирует сильное соотношение эффективности и точности. Вероятности служат оценками повторного ранжирования среди кандидатных решений; мы интерпретируем высокий ROC-AUC как парное различение, а абсолютную точность как верхнюю границу, учитывая синтетические негативные примеры.
Метапознание является критически важной составляющей интеллекта, описывающей способность контролировать и регулировать собственные когнитивные процессы. Тем не менее, большие языковые модели (LLMs) демонстрируют системные недостатки в ключевых метапознавательных функциях: они создают неправильные (галлюцинирующие) ответы с высокой уверенностью, не осознают границы своих знаний и неправильно представляют свою внутреннюю неопределенность, что подрывает доверие и надежность. Учитывая, что мониторинг производительности задач и адаптация поведения в соответствии с этим являются центральными для метапознания, мы предполагаем, что модели, способные точно оценивать свою собственную производительность, лучше подготовлены для ее улучшения. Мы реализуем эту идею через два новых механизма: обучение с подкреплением с метапознавательной обратной связью (RLMF) – парадигму, позволяющую улучшать ранжирование завершений во время оптимизации предпочтений на основе качества самосуждений модели о производительности, и выбор метапознавательных данных, который использует аналогичные самосуждения для выявления ценных обучающих примеров, превосходя наивное активное обучение. Мы применяем эти инновации к проблеме надежной калибровки (FC), которая сама по себе является принципиально метапознавательной задачей: цель заключается в согласовании выраженной и внутренней неопределенности, что сложно даже для передовых LLM. Мы принимаем декомпозированный подход в два этапа: сначала используем эти методы для калибровки надежности самооценок моделей, а затем отображаем на естественную, адаптируемую по контексту языковую неопределенность через целевое редактирование выходных данных. Обширные эксперименты показывают, что RLMF достигает обобщаемой, современной надежной калибровки на различных задачах при сохранении точности. Более того, RLMF превосходит стандартное обучение с подкреплением на 63%, при этом улучшая способность моделей оценивать и выражать собственные пределы возможностей. Это ставит RLMF в качестве многообещающей парадигмы для повышения метапознавательных способностей LLM с целью улучшения возможностей моделирования и соответствия, а также предполагает, что метапознавательная производительность является эффективным сигналом обучения с подкреплением для преодоления ограничений ранее используемых методов внутренней обратной связи.
Языковые модели (ЯМ) все чаще используются для генерации идей для исследований, но существующие оценки в основном судят о каждой идее по таким критериям, как новизна, осуществимость или предпочтения экспертов. Вместо этого мы задаем вопрос: насколько далеко находятся текущие идеи, сгенерированные ЯМ, от идей человеческих исследователей? Чтобы охарактеризовать этот разрыв, мы разрабатываем рамки крупномасштабной оценки идей на основе высококачественных научных статей. Для каждой статьи мы проводим обратную разработку небольшого набора тесно связанных предыдущих работ, которые, вероятно, вдохновили ее основную идею. Затем ЯМ получают задание сгенерировать новую идею на основе набора заголовков и аннотаций статей. Мы представляем таксономию вкусов в исследованиях по двум осям, чтобы охарактеризовать каждую идею по ее паттерну возможностей и исследовательской парадигме, и используем ее для количественной оценки различий между человеческими и ЯМ-генерированными идеями. В различных наборах идей, сгенерированных разными ЯМ, мы наблюдаем постоянный распределительный разрыв: идеи ЯМ непропорционально сосредоточены вокруг возможностей синтеза и аналогий, в то время как распределение ссылок на человеческие работы намного шире и охватывает более разнообразные способы формирования разрывов и конструкций вкладов. Этот результат указывает на то, что мощные ЯМ могут производить ряд разумных идей, но этот диапазон остается уже и систематически смещенным по сравнению с исследовательским вкусом человека.
Цель данного исследования заключалась в разработке и внешней валидации модели прогнозирования риска острого повреждения почек (ОПП) на 48 часов в реальном времени для критически больных пациентов с использованием модели глубокого обучения двойного канала (DC-AKI). Модель была разработана на основе электронных медицинских записей 28,099 пациентов в медицинском центре Beth Israel Deaconess и внешне валидирована на двух независимых когорт, состоящих из 3,108 пациентов из базы данных eICU и 2,808 пациентов из больницы народного госпиталя провинции Чжэцзян. Тридцать одна изменяющаяся во времени характеристика обновлялась каждые 6 часов. Архитектура модели DC-AKI интегрировала сети BiGRU, свёрточные слои и механизмы внимания для захвата мультишкалярных временных зависимостей. Модель достигла значений площади под кривой операционных характеристик (AUC) 0,720 (95% ДИ, 0,714-0,728) при внутренней валидации и 0,577 (95% ДИ, 0,570-0,583) и 0,798 (95% ДИ, 0,795-0,799) в двух внешних когорт. Анализ интерпретируемости SHAP выявил ключевые клинические предикторы и индивидуальные траектории риска. В заключение, DC-AKI продемонстрировала хорошую предсказательную способность в развивающей когортной популяции и на одном сайте внешней валидации, хотя производительность существенно варьировала в зависимости от учреждений. Необходимо дальнейшая валидация и локальная калибровка для поддержки её клинического применения.
Мультимодальные подходы в области искусственного интеллекта (ИИ), интегрирующие разнородные источники данных, представляют собой новую границу в оценке фиброза печени. Тем не менее, использование мультимодального ИИ для стадирования фиброза печени было лишь предварительно исследовано, и существующие данные ограничены значительными методологическими пробелами. Этот обзор aims был направлен на полное картирование текущих данных о мультимодальных ИИ моделях, которые интегрируют медицинскую визуализацию с другими категориями данных для прогнозирования стадии фиброза печени. Следуя методологии Института Джоанны Бриггс и рекомендациям PRISMA-ScR, мы провели поиск в MEDLINE, Web of Science, CENTRAL и IEEE Xplore 12 августа 2025 года. В исследования были включены работы, разрабатывающие модели ИИ или машинного обучения для прогнозирования фиброза печени и интегрирующие как минимум одну визуализационную модальность с разнородными категориями данных (например, клинические параметры или сывороточные биомаркеры). Три рецензента независимо отобрали записи, и извлеченные данные были независимо проверены двумя дополнительными рецензентами. Из 2849 записей 21 исследование соответствовало критериям допуска, что дало 34 различных мультимодальных ИИ модели. Исследования были географически сосредоточены в Китае (81%) и в основном фокусировались на заболеваниях печени, связанных с гепатитом B. Наиболее распространенным подходом были радиомика на основе КТ, комбинированная с сывороточными биомаркерами, в то время как архитектуры глубокого обучения применялись реже. В 107 оценках AUC медиана AUC составила 0.890 (межквартильный диапазон 0.850-0.925). AUC внешней валидации (12 оценок из 6 исследований) варьировалась от 0.808 до 0.990; 3 оценки внутреннего тестирования из одного исследования оказались ниже 0.70. Тем не менее, внешний контроль был представлен только у 20.6% моделей, при этом отчетность о калибровке и анализ кривой принятия решений были описаны в 23.1% и 24.1% оценок соответственно. Этот обзор выявил начинающуюся область с об encouraging диагностической производительностью, но с существенными пробелами во внешней валидации, отчетности о калибровке и оценке клинической полезности. Будущие исследования должны приоритизировать методологически строгую валидацию и оценивать влияние на клинические решения.
Трансформеры используют один и тот же поток вычислений для предсказания следующего токена и хранения полезного состояния для будущих предсказаний токенов. Мы формулируем гипотезу о разделении предсказания состояния: разделение этих двух ролей обеспечивает лучшую производительность языкового моделирования. Мы разрабатываем вариант трансформера, который использует два вычислительных потока для разделения этих функций, и проводим эксперименты по предварительному обучению на данных различного масштаба. Наши эксперименты показывают, что разделение предсказания состояния последовательно предлагает лучшую эффективность данных и вычислений, улучшая показатель валидации и превосходя стандартные трансформеры в среднем на 2-3 процентных пункта по downstream задачам. Мы также проводим обширный эмпирический анализ, который исключает потенциальные конфаундеры и демонстрирует принципиальное различие в градиентах, которое влечет наш дизайн.