Искусственный интеллектarXivScience Morning3 мин чтенияpreprint

Эталон безопасности для биомедицинских больших языковых моделей

Safety benchmark for biomedical large language models

Рубрика
Искусственный интеллект
Источник
arXiv
Дата
01.07.2026
Автор
Science Morning
Время чтения
3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Искусственный интеллект

Аннотация

Предварительный тест оценивает биомедицинские большие языковые модели по запросам, чувствительным к вопросам безопасности.

Краткое резюме

В данной работе исследуются возможности и ограничения биомедицинских больших языковых моделей при выполнении запросов, связанных с безопасностью. Результаты подчеркивают важность оценки таких моделей в контексте применения в медицинской сфере.

Практический вывод

Выводы данного исследования могут помочь в разработке безопасных биомедицинских технологий, что особенно актуально в свете растущего использования искусственного интеллекта в медицине.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. Исследование ограничено только предварительной оценкой моделей и может не учитывать все аспекты их работы в реальных клинических условиях.

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Искусственный интеллект
Искусственный интеллект
100%

Выявление скрытых предвзятостей в языковых моделях с помощью дистилляции

Языковые модели, используемые в ситуациях с высокими ставками, могут потенциально благоприятствовать определенным субъектам, брендам или точкам зрения, влияя на решения пользователей в масштабах. Такие предвзятости могут быть внесены любым участником цепочки поставок модели и представляют наибольшую опасность, когда модель проявляет свои предпочтения только по соответствующей теме, оставаясь при этом идентичной своей незамененной базе по всем другим входным данным. Недавние исследования показали, что эти предвзятости могут передаваться через дистилляцию контекста на семантически не связанных данных, сигнал при этом полностью содержится в распределении мягких логитов и остается невидимым для текстовой инспекции. Однако защитник сталкивается с фундаментальной асимметрией: не зная темы предвзятости, ни один метод обнаружения не может надежно выявить скрытую предвзятость, независимо от того, анализирует ли он сгенерированный текст, внутренние представления или веса модели. В этой работе мы представляем метод Distill to Detect (D2D), который выявляет скрытые предвзятости, дистиллируя смещение распределения между подозреваемой моделью и ее базой в картридж (адаптер префикса KV-кэша), концентрируя доминирующее расхождение и усиливая сигнал предвзятости в сгенерированном тексте. Мы показываем, что D2D успешно усиливает скрытые предвзятости скрытых моделей в такой степени, что они могут быть надежно выявлены по нескольким типам предвзятости. Мы также предлагаем теоретическую основу, которая объясняет эффективность D2D через призму проекции логит-распределения, взвешенного по Фишеру, поддерживаемую эмпирическими наблюдениями. Превращая узкое место в возможности адаптеров префиксной настройки в инструмент обнаружения, D2D предоставляет практическую основу для аудита скрытых поведений в развернутых языковых моделях.

Искусственный интеллект
Искусственный интеллект
100%

Обучение с подкреплением с метапознавательной обратной связью вызывает надежное выражение неопределенности в больших языковых моделях

Метапознание является критически важной составляющей интеллекта, описывающей способность контролировать и регулировать собственные когнитивные процессы. Тем не менее, большие языковые модели (LLMs) демонстрируют системные недостатки в ключевых метапознавательных функциях: они создают неправильные (галлюцинирующие) ответы с высокой уверенностью, не осознают границы своих знаний и неправильно представляют свою внутреннюю неопределенность, что подрывает доверие и надежность. Учитывая, что мониторинг производительности задач и адаптация поведения в соответствии с этим являются центральными для метапознания, мы предполагаем, что модели, способные точно оценивать свою собственную производительность, лучше подготовлены для ее улучшения. Мы реализуем эту идею через два новых механизма: обучение с подкреплением с метапознавательной обратной связью (RLMF) – парадигму, позволяющую улучшать ранжирование завершений во время оптимизации предпочтений на основе качества самосуждений модели о производительности, и выбор метапознавательных данных, который использует аналогичные самосуждения для выявления ценных обучающих примеров, превосходя наивное активное обучение. Мы применяем эти инновации к проблеме надежной калибровки (FC), которая сама по себе является принципиально метапознавательной задачей: цель заключается в согласовании выраженной и внутренней неопределенности, что сложно даже для передовых LLM. Мы принимаем декомпозированный подход в два этапа: сначала используем эти методы для калибровки надежности самооценок моделей, а затем отображаем на естественную, адаптируемую по контексту языковую неопределенность через целевое редактирование выходных данных. Обширные эксперименты показывают, что RLMF достигает обобщаемой, современной надежной калибровки на различных задачах при сохранении точности. Более того, RLMF превосходит стандартное обучение с подкреплением на 63%, при этом улучшая способность моделей оценивать и выражать собственные пределы возможностей. Это ставит RLMF в качестве многообещающей парадигмы для повышения метапознавательных способностей LLM с целью улучшения возможностей моделирования и соответствия, а также предполагает, что метапознавательная производительность является эффективным сигналом обучения с подкреплением для преодоления ограничений ранее используемых методов внутренней обратной связи.

Искусственный интеллект
Искусственный интеллект
95%

Мультидисциплинарный эталонный датасет для оценки больших языковых моделей в области понимания традиционной китайской оперы.

Бенчмаркинг является необходимым для оценки возможностей больших языковых моделей (БЯМ). Однако существующие мультидисциплинарные бенчмарки не имеют специализированных ресурсов для традиционной китайской оперы, области, насыщенной культурной и визуальной сложностью. Для устранения этого пробела мы представляем TCO-Dataset, двуязычный мультидисциплинарный датасет, предназначенный для оценки способности БЯМ интерпретировать и делать выводы на основе изображений китайской оперы. Датасет содержит 1000 вопросов с множественным выбором, paired with высококачественными изображениями из восьми основных жанров оперы. Каждый образец включает тщательно отобранное изображение, соответствующий вопрос, сосредоточенный на культурном и визуальном понимании, и аннотированный ответ для оценки. Датасет поддерживает как китайский, так и английский языки, что позволяет проводить оценку моделей в разных языках. Все элементы были проверены через несколько раундов экспертной валидации для обеспечения согласованности и точности. TCO-Dataset поддерживает разнообразные приложения, включая визуально-культурное рассуждение на основе неподвижных изображений, сохранение культурного наследия и развитие ИИ в специфических областях. Начальные оценки показывают значительные вариации в производительности разных моделей, подчеркивая сложность и ценность датасета для продвижения мультидисциплинарного понимания.

Искусственный интеллект
Искусственный интеллект
92%

Правильно в правильном направлении: Обучение языковых моделей с проверяемыми наградами и человеческими демонстрациями

Обучение с подкреплением с проверяемыми наградами (RLVR) стало мощной парадигмой для обучения языковых моделей (ЛМ) по задачам с четко определяемыми метриками успеха, такими как генерация кода и математическое рассуждение. Однако текущие методы RLVR оптимизируют лишь то, что можно объективно оценить, часто пренебрегая субъективными, непроверяемыми аспектами человеческих выводов, такими как стиль и структура. Это ограничение приводит к хорошо задокументированным проблемам, таким как потеря разнообразия, неестественно звучащие ответы и манипулирование наградами. Мы предлагаем противоборствующую систему генератора-дискриминатора, которая дополняет проверяемые награды обученным сигналом из человеческих демонстраций. Модель генератора обучается с использованием RL для максимизации как точности выполнения задач, так и противоборствующей награды, полученной от дискриминатора. Дискриминатор, обучаемый вместе с политикой генератора, учится отличать тексты, написанные человеком, от сгенерированных моделью. Дискриминатор служит обученной прокси для распределения человеческих выходов, предоставляя обратную связь по аспектам генерации, которые трудно формализовать в виде скалярных наград. В различных областях, включая исправление ошибок и открытую генерацию, наш подход последовательно улучшает непроверяемые свойства, сохраняя при этом приросты точности RLVR. В исправлении ошибок наш метод демонстрирует решения с значительно меньшим расстоянием правок по сравнению с базовыми методами RLVR, достигая аналогичных результатов. В генерации рассказов наш подход значительно увеличивает вероятность победы, создавая истории, которые являются разнообразными и более приближенными к человеческим. В простом тесте на манипулирование наградами наш метод почти полностью устраняет неправильное поведение модели, сохраняя при этом высокие оценки по стандартам. Вместе эти результаты показывают, что наш подход соединяет RL и SFT, предлагая масштабируемый путь к совместной оптимизации проверяемых и непроверяемых свойств задачи.

Искусственный интеллект
Искусственный интеллект
92%

Обучение с учетом принятия решений для генеративных моделей на основе выборок

Генеративные модели на основе выборок все чаще используются для вероятностного прогнозирования в условиях высоких ставок, однако их цели обучения не обращают внимания на структуру затрат принятием решений. Обычно эти модели обучают с использованием строго корректных оценивательных правил, таких как энергетический рейтинг, которые распределяют сигнал обучения пропорционально плотности данных, не учитывая, где ошибки прогнозов наиболее затратны для последующих решений. Поэтому мы предлагаем обучение с учетом принятия решений для генеративных моделей на основе выборок, дополняя цель энергетического рейтинга дифференцируемой функцией потерь, которая непосредственно штрафует за затраты, понесенные при принятии решения на основе прогноза модели. Эта комбинированная функция потерь имеет теоретическую основу, поскольку функция потерь по решению сама по себе является корректным оценивательным правилом. Мы проверяем наш метод на одной синтетической и двух реальных задачах, демонстрируя целевые улучшения в чувствительных к затратам областях, при этом сохраняя полные вероятностные прогнозы.

Искусственный интеллект
Искусственный интеллект
90%

SemRF: Семантическая опорная рамка для динамики остаточного потока в языковых моделях

Анализ остаточного потока исследует, как вычисления языковой модели развиваются на разных уровнях, но промежуточное декодирование требует сопоставимых координат считывания на различных слоях. Если якорные встраивания и считывания контекстов не совпадают по выбранному диапазону, то видимое движение может отражать смещение измерений, а не вычислений. Мы вводим "Семантические опорные рамки" (SemRF), основанную на якорях формулировку, которая разделяет семантическое измерение и остаточную динамику. SemRF фиксирует якоря и измеряет состояния относительно них. Связание псевдообратных операций обеспечивает точную синхронизацию; при ограниченной би-обратимости SemRF дает стабильные семантические базисные координаты, границы искажения и почти единичные изменения. С фиксированным каркасом остаточные вычисления становятся семантической траекторией по глубине. Якоря задают семантическую диаграмму Вороноя: расстояние или такие показатели, как логиты, назначают каждому слою грубую ячейку, в то время как координаты сохраняют движения и границы внутри ячейки. Мы определяем шаги по слоям, профили вклада и диагностику дисбаланса, а затем используем след Вороноя для определения расслабленной трубки. Канонический след - это путь с минимальным действием внутри этой трубки; когда он не пустой с положительным квадратичным весом, он уникален и подчиняется дискретному уравнению сплайн. Избыточное действие контролирует шаг, кривизну и несоответствие профиля. Низкая кривизна означает кусочно-линейную сжимаемость и плотность локальных знаний: меньшая сложность следа означает меньше семантических узлов. Через отображение параметров на траекторию это дает условную связь с эффективностью параметров: среди допустимых настроек, соответствующих данным, следы с меньшим действием и меньшей сложностью используют меньше семантических степеней свободы. Эти гарантии требуют контролируемой ошибки интерфейса и малого остатка проекции при явных ограничениях трубки.