Искусственный интеллектarXivScience Morning3 мин чтенияpreprint

Измерение разрыва между идеями исследований человека и языковых моделей

Measuring the Gap Between Human and LLM Research Ideas

Рубрика
Искусственный интеллект
Источник
arXiv
Дата
01.07.2026
Автор
Science Morning
Время чтения
3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Искусственный интеллект

Аннотация

Языковые модели (ЯМ) все чаще используются для генерации идей для исследований, но существующие оценки в основном судят о каждой идее по таким критериям, как новизна, осуществимость или предпочтения экспертов. Вместо этого мы задаем вопрос: насколько далеко находятся текущие идеи, сгенерированные ЯМ, от идей человеческих исследователей? Чтобы охарактеризовать этот разрыв, мы разрабатываем рамки крупномасштабной оценки идей на основе высококачественных научных статей. Для каждой статьи мы проводим обратную разработку небольшого набора тесно связанных предыдущих работ, которые, вероятно, вдохновили ее основную идею. Затем ЯМ получают задание сгенерировать новую идею на основе набора заголовков и аннотаций статей. Мы представляем таксономию вкусов в исследованиях по двум осям, чтобы охарактеризовать каждую идею по ее паттерну возможностей и исследовательской парадигме, и используем ее для количественной оценки различий между человеческими и ЯМ-генерированными идеями. В различных наборах идей, сгенерированных разными ЯМ, мы наблюдаем постоянный распределительный разрыв: идеи ЯМ непропорционально сосредоточены вокруг возможностей синтеза и аналогий, в то время как распределение ссылок на человеческие работы намного шире и охватывает более разнообразные способы формирования разрывов и конструкций вкладов. Этот результат указывает на то, что мощные ЯМ могут производить ряд разумных идей, но этот диапазон остается уже и систематически смещенным по сравнению с исследовательским вкусом человека.

Краткое резюме

В данном исследовании авторы анализируют, насколько идеи, генерируемые языковыми моделями (ЯМ), отличаются от идей, выдвигаемых человеческими исследователями. Создав крупномасштабную оценочную систему, они сравнивают идеи, выводимые ЯМ, с основными концепциями высококачественных научных статей и выявляют, что идеи ЯМ часто сосредоточены на более узком диапазоне тем по сравнению с более разнообразным подходом человеческих авторов.

Практический вывод

Исследование показывает, что хотя языковые модели способны генерировать разумные идеи, их творческий диапазон остаётся более ограниченным и смещённым по сравнению с разнообразием идей, предложенных реальными исследователями.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. В исследовании можно отметить, что оценка проводится на основе ограниченного набора высококачественных материалов, что может не полностью отражать все аспекты исследований в различных областях. Кроме того, акцент на сравнительном анализе с ЯМ может не учитывать другие факторы, влияющие на исследовательскую деятельность человека.

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Искусственный интеллект
Искусственный интеллект
100%

Выявление скрытых предвзятостей в языковых моделях с помощью дистилляции

Языковые модели, используемые в ситуациях с высокими ставками, могут потенциально благоприятствовать определенным субъектам, брендам или точкам зрения, влияя на решения пользователей в масштабах. Такие предвзятости могут быть внесены любым участником цепочки поставок модели и представляют наибольшую опасность, когда модель проявляет свои предпочтения только по соответствующей теме, оставаясь при этом идентичной своей незамененной базе по всем другим входным данным. Недавние исследования показали, что эти предвзятости могут передаваться через дистилляцию контекста на семантически не связанных данных, сигнал при этом полностью содержится в распределении мягких логитов и остается невидимым для текстовой инспекции. Однако защитник сталкивается с фундаментальной асимметрией: не зная темы предвзятости, ни один метод обнаружения не может надежно выявить скрытую предвзятость, независимо от того, анализирует ли он сгенерированный текст, внутренние представления или веса модели. В этой работе мы представляем метод Distill to Detect (D2D), который выявляет скрытые предвзятости, дистиллируя смещение распределения между подозреваемой моделью и ее базой в картридж (адаптер префикса KV-кэша), концентрируя доминирующее расхождение и усиливая сигнал предвзятости в сгенерированном тексте. Мы показываем, что D2D успешно усиливает скрытые предвзятости скрытых моделей в такой степени, что они могут быть надежно выявлены по нескольким типам предвзятости. Мы также предлагаем теоретическую основу, которая объясняет эффективность D2D через призму проекции логит-распределения, взвешенного по Фишеру, поддерживаемую эмпирическими наблюдениями. Превращая узкое место в возможности адаптеров префиксной настройки в инструмент обнаружения, D2D предоставляет практическую основу для аудита скрытых поведений в развернутых языковых моделях.

Искусственный интеллект
Искусственный интеллект
100%

Обучение с подкреплением с метапознавательной обратной связью вызывает надежное выражение неопределенности в больших языковых моделях

Метапознание является критически важной составляющей интеллекта, описывающей способность контролировать и регулировать собственные когнитивные процессы. Тем не менее, большие языковые модели (LLMs) демонстрируют системные недостатки в ключевых метапознавательных функциях: они создают неправильные (галлюцинирующие) ответы с высокой уверенностью, не осознают границы своих знаний и неправильно представляют свою внутреннюю неопределенность, что подрывает доверие и надежность. Учитывая, что мониторинг производительности задач и адаптация поведения в соответствии с этим являются центральными для метапознания, мы предполагаем, что модели, способные точно оценивать свою собственную производительность, лучше подготовлены для ее улучшения. Мы реализуем эту идею через два новых механизма: обучение с подкреплением с метапознавательной обратной связью (RLMF) – парадигму, позволяющую улучшать ранжирование завершений во время оптимизации предпочтений на основе качества самосуждений модели о производительности, и выбор метапознавательных данных, который использует аналогичные самосуждения для выявления ценных обучающих примеров, превосходя наивное активное обучение. Мы применяем эти инновации к проблеме надежной калибровки (FC), которая сама по себе является принципиально метапознавательной задачей: цель заключается в согласовании выраженной и внутренней неопределенности, что сложно даже для передовых LLM. Мы принимаем декомпозированный подход в два этапа: сначала используем эти методы для калибровки надежности самооценок моделей, а затем отображаем на естественную, адаптируемую по контексту языковую неопределенность через целевое редактирование выходных данных. Обширные эксперименты показывают, что RLMF достигает обобщаемой, современной надежной калибровки на различных задачах при сохранении точности. Более того, RLMF превосходит стандартное обучение с подкреплением на 63%, при этом улучшая способность моделей оценивать и выражать собственные пределы возможностей. Это ставит RLMF в качестве многообещающей парадигмы для повышения метапознавательных способностей LLM с целью улучшения возможностей моделирования и соответствия, а также предполагает, что метапознавательная производительность является эффективным сигналом обучения с подкреплением для преодоления ограничений ранее используемых методов внутренней обратной связи.

Искусственный интеллект
Искусственный интеллект
100%

Когда большие языковые модели невнимательно читают таблицы: измерение и снижение ошибок ссылок на данные

Хотя большие языковые модели (БЯМ) хорошо справляются с задачами, связанными с таблицами, они все же совершают ошибки при ссылках на данные (ЭСД), то есть неправильно цитируют или опускают значения из таблиц, несмотря на понимание их структуры. Кроме того, что ошибки при ссылках на данные влияют на точность финальных ответов, они прямо ставят под сомнение корректность и надежность промежуточных шагов рассуждения. Однако предыдущие исследования предлагали лишь ограниченные и мелкомасштабные анализы. В данной работе мы представляем первую систематическую оценку ошибок ссылок на табличные данные в различных моделях и задачах. Наши результаты показывают, что ЭСД встречаются во всех протестированных моделях (от 1.7 до 20 миллиардов параметров). Кроме того, мы демонстрируем, что внедрение ссылок на данные в качестве критика значительно улучшает точность ответов на 12.0% с помощью фильтрации на основе критика и выборки для отклонения. В заключение, мы обучили легкую модель критика с 4 миллиардами параметров, которая достигает средней F1 оценки 78.2% в обнаружении как внутрираспределенных, так и внераспределенных ЭСД и эффективно способствует выводу для более крупных моделей.

Искусственный интеллект
Искусственный интеллект
100%

SemRF: Семантическая опорная рамка для динамики остаточного потока в языковых моделях

Анализ остаточного потока исследует, как вычисления языковой модели развиваются на разных уровнях, но промежуточное декодирование требует сопоставимых координат считывания на различных слоях. Если якорные встраивания и считывания контекстов не совпадают по выбранному диапазону, то видимое движение может отражать смещение измерений, а не вычислений. Мы вводим "Семантические опорные рамки" (SemRF), основанную на якорях формулировку, которая разделяет семантическое измерение и остаточную динамику. SemRF фиксирует якоря и измеряет состояния относительно них. Связание псевдообратных операций обеспечивает точную синхронизацию; при ограниченной би-обратимости SemRF дает стабильные семантические базисные координаты, границы искажения и почти единичные изменения. С фиксированным каркасом остаточные вычисления становятся семантической траекторией по глубине. Якоря задают семантическую диаграмму Вороноя: расстояние или такие показатели, как логиты, назначают каждому слою грубую ячейку, в то время как координаты сохраняют движения и границы внутри ячейки. Мы определяем шаги по слоям, профили вклада и диагностику дисбаланса, а затем используем след Вороноя для определения расслабленной трубки. Канонический след - это путь с минимальным действием внутри этой трубки; когда он не пустой с положительным квадратичным весом, он уникален и подчиняется дискретному уравнению сплайн. Избыточное действие контролирует шаг, кривизну и несоответствие профиля. Низкая кривизна означает кусочно-линейную сжимаемость и плотность локальных знаний: меньшая сложность следа означает меньше семантических узлов. Через отображение параметров на траекторию это дает условную связь с эффективностью параметров: среди допустимых настроек, соответствующих данным, следы с меньшим действием и меньшей сложностью используют меньше семантических степеней свободы. Эти гарантии требуют контролируемой ошибки интерфейса и малого остатка проекции при явных ограничениях трубки.

Искусственный интеллект
Искусственный интеллект
100%

Фиделити суррогатов: Когда открытые языковые модели могут объяснить закрытые?

Механистическая интерпретируемость (МИ) требует полного доступа к внутренним структурам модели, однако APIs большинства широко распространенных языковых моделей в лучшем случае предоставляют логарифмические вероятности выходных токенов. Это создает проблему суррогата: когда измерения, выполненные на открытых моделях, позволяют нам делать выводы о закрытой модели? Мы оцениваем фиделити суррогата на уровнях предсказания, атрибуции и представления. Для задач бинарной классификации логарифмические шансы предоставляют совместимый с API скалярный вывод пространства представления модели, а атрибуции «оставь-один-наружу» дают представление о поведении модели. На основе одиннадцати моделей из четырех семейств (Llama, Qwen, GPT и Gemini) мы обнаруживаем, что фиделити предсказания существенно завышает фиделити атрибуции: модели, которые согласны в том, каков ответ, часто расходятся в том, почему. Мы фиксируем инверсии доступа и валидности: белые модели, такие как структуры внимания и величины возмущений, остаются высоко стабильными между моделями, но лишь слабо предсказывают причинные атрибуции, которые по замыслу захватывают черные абляции входных данных. Механистическое понимание не передается автоматически на закрытые цели, и соглашение на уровне предсказания недостаточно для обоснования такого переноса. Код и результаты доступны по адресу https://github.com/facebookresearch/surrogate.

Искусственный интеллект
Искусственный интеллект
95%

Мультидисциплинарный эталонный датасет для оценки больших языковых моделей в области понимания традиционной китайской оперы.

Бенчмаркинг является необходимым для оценки возможностей больших языковых моделей (БЯМ). Однако существующие мультидисциплинарные бенчмарки не имеют специализированных ресурсов для традиционной китайской оперы, области, насыщенной культурной и визуальной сложностью. Для устранения этого пробела мы представляем TCO-Dataset, двуязычный мультидисциплинарный датасет, предназначенный для оценки способности БЯМ интерпретировать и делать выводы на основе изображений китайской оперы. Датасет содержит 1000 вопросов с множественным выбором, paired with высококачественными изображениями из восьми основных жанров оперы. Каждый образец включает тщательно отобранное изображение, соответствующий вопрос, сосредоточенный на культурном и визуальном понимании, и аннотированный ответ для оценки. Датасет поддерживает как китайский, так и английский языки, что позволяет проводить оценку моделей в разных языках. Все элементы были проверены через несколько раундов экспертной валидации для обеспечения согласованности и точности. TCO-Dataset поддерживает разнообразные приложения, включая визуально-культурное рассуждение на основе неподвижных изображений, сохранение культурного наследия и развитие ИИ в специфических областях. Начальные оценки показывают значительные вариации в производительности разных моделей, подчеркивая сложность и ценность датасета для продвижения мультидисциплинарного понимания.