Искусственный интеллектmedRxivScience Morning3 мин чтенияpreprint
Infoxmed2.0-27B: Тюнинг инструкций, согласование предпочтений и обучение модели награды на основе GRPO для медицинских LLM
Infoxmed2.0-27B: Instruction Tuning, Preference Alignment, and GRPO-Based Reward Model Training for Medical LLMs
Карточка статьи
Рубрика
Искусственный интеллект
Источник
medRxiv
DOI
10.64898/2026.06.25.26356522
Дата
30.06.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Краткое резюме
Модель Infoxmed2.0-27B представляет собой медицинский языковой модель, адаптированную для работы в специализированных медицинских контекстах с помощью комплекса методов дообучения и оптимизации. Она демонстрирует высокую точность и качество, что подтверждается оценками на медицинских тестах.
Практический вывод
Infoxmed2.0-27B показывает высокий уровень точности в медицинских задачах благодаря строгой адаптации и оптимизации, что делает ее полезной для медицинских профессионалов и исследователей.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Ограничения исследования включают возможные недостатки в наборе данных, на котором обучалась модель, и необходимости в дальнейшей валидации и тестировании в реальных медицинских сценариях.
Обучение с подкреплением (RL) стало центральным компонентом постобучения крупных языковых моделей (LLMs), однако мало что известно о том, как адаптация RL распределена по слоям трансформера. Существующие подходы обычно обновляют все параметры модели равномерно, подразумевая, что каждый слой вносит схожий вклад в приросты, достигнутые в процессе постобучения с использованием RL. В данной работе мы ставим под сомнение это предположение через систематическое изучение обучения RL по слоям. Удивительно, но мы обнаружили, что обучение одного слоя трансформера может воспроизвести большую часть приростов, достигнутых при полном обучении с RL, а в некоторых случаях даже превзойти его. Чтобы количественно оценить это явление, мы вводим величину "вклад слоя", которая измеряет долю полного улучшения RL, достигнутого благодаря обучению слоя в изоляции. В рамках семи моделей, охватывающих две семейства моделей (Qwen3, Qwen2.5), три алгоритма RL (GRPO, GiGPO, Dr. GRPO) и несколько областей задач, включая математическое рассуждение, генерацию кода и агентное принятие решений, мы наблюдаем замечательно стабильный паттерн: приросты RL сосредоточены в небольшом подмножестве, а в большинстве случаев даже в одном слое трансформера. Более того, тот же структурный паттерн последовательно возникает: слои с высоким вкладом сосредоточены в середине стека трансформера, тогда как слои ближе к входу и выходу вносят значительно меньший вклад. Ранжирование слоев при этом остается сильно коррелированным между датасетами, задачами, семействами моделей и алгоритмами RL.
Метапознание является критически важной составляющей интеллекта, описывающей способность контролировать и регулировать собственные когнитивные процессы. Тем не менее, большие языковые модели (LLMs) демонстрируют системные недостатки в ключевых метапознавательных функциях: они создают неправильные (галлюцинирующие) ответы с высокой уверенностью, не осознают границы своих знаний и неправильно представляют свою внутреннюю неопределенность, что подрывает доверие и надежность. Учитывая, что мониторинг производительности задач и адаптация поведения в соответствии с этим являются центральными для метапознания, мы предполагаем, что модели, способные точно оценивать свою собственную производительность, лучше подготовлены для ее улучшения. Мы реализуем эту идею через два новых механизма: обучение с подкреплением с метапознавательной обратной связью (RLMF) – парадигму, позволяющую улучшать ранжирование завершений во время оптимизации предпочтений на основе качества самосуждений модели о производительности, и выбор метапознавательных данных, который использует аналогичные самосуждения для выявления ценных обучающих примеров, превосходя наивное активное обучение. Мы применяем эти инновации к проблеме надежной калибровки (FC), которая сама по себе является принципиально метапознавательной задачей: цель заключается в согласовании выраженной и внутренней неопределенности, что сложно даже для передовых LLM. Мы принимаем декомпозированный подход в два этапа: сначала используем эти методы для калибровки надежности самооценок моделей, а затем отображаем на естественную, адаптируемую по контексту языковую неопределенность через целевое редактирование выходных данных. Обширные эксперименты показывают, что RLMF достигает обобщаемой, современной надежной калибровки на различных задачах при сохранении точности. Более того, RLMF превосходит стандартное обучение с подкреплением на 63%, при этом улучшая способность моделей оценивать и выражать собственные пределы возможностей. Это ставит RLMF в качестве многообещающей парадигмы для повышения метапознавательных способностей LLM с целью улучшения возможностей моделирования и соответствия, а также предполагает, что метапознавательная производительность является эффективным сигналом обучения с подкреплением для преодоления ограничений ранее используемых методов внутренней обратной связи.
Болезнь Хантингтона (БХ) имеет гетерогенное нейродегенеративное течение, при котором моторные, когнитивные и функциональные симптомы развиваются по-разному у различных людей. Такое нетипичное течение осложняет определение дискретных стадий болезни, что затрудняет понимание траекторий заболевания, timely pa- tient care и разработку терапии. В результате существующие клинические системы стадирования в значительной степени полагаются на критерии, определяемые клиницистами, специфичные для области, и фиксированные границы клинического измерения для назначения стадии, что снижает объективность и часто приводит к перекрытию клинических измерений между стадиями. Хотя методы машинного обучения могут помочь, существующие подходы не могут полностью уловить сложные временные зависимости внутри и между пациентами. Мы предлагаем URL-STFN, модель динамического представления графов, которая кодирует как меж-, так и внутри-пациентные временные паттерны на основе долгосрочных клинических измерений. Затем мы оцениваем стадии заболевания, образованные через кластеризацию и анализ стабильности латентных представлений URL-STFN, и сравниваем их с представлениями, полученными с помощью традиционных методов эмбеддинга. Мы также проводим бенчмаркинг этих стадий, основанных на кластеризации, по сравнению с состояниями, полученными из традиционных временных моделей, включая DHMM. Мы предполагаем, что кластеризация латентных представлений URL-STFN позволяет идентифицировать стадии БХ с уменьшением перекрытия клинических измерений. Предложенная структура оценивается с использованием 1,477 клинических визитов из набора данных Enroll-HD, крупной продольной когорты с повторными клиническими оценками. Для стадирования мы использовали 44 клинических измерения, охватывающих моторную, когнитивную и функциональную области. URL-STFN определяет клинически значимые стадии БХ, которые соответствуют установленному прогрессированию заболевания, одновременно уменьшая перекрытие значений клинических признаков по сравнению с подходами, основанными на DHMM, и клиническими стадиями. Эти выводы подчеркивают потенциал модели обучения представления на основе динамических графов и фреймворка кластеризации для поддержки более объективного, основанного на данных и точного стадирования БХ.
Искусственный интеллект (ИИ) стремительно трансформирует системы здравоохранения и клиническую практику, увеличивая необходимость подготовки будущих врачей к эффективному взаимодействию с технологиями ИИ в клинических условиях. Несмотря на возрастающий интерес к интеграции ИИ в медицинское образование, эмпирические данные о готовности студентов медицины использовать ИИ остаются ограниченными. Настоящее исследование направлено на оценку готовности к медицинскому ИИ среди студентов медицинских вузов Кореи и изучение факторов, связанных с этой готовностью. Было проведено поперечное исследование среди студентов, обучающихся в шестилетней медицинской программе в университете Кореи. Всего в исследовании участвовали 204 студента. Готовность к медицинскому ИИ оценивалась с помощью Шкалы готовности к медицинскому ИИ для студентов (MAIRS-MS), которая охватывает четыре области: когнитивная, способность, видение и этика. Описательная статистика, независимые t-тесты и корреляционный анализ Пирсона проводились с использованием SPSS версии 27. Средний балл готовности к медицинскому ИИ составил 4,19 по 7-балльной шкале Лайкерта, что указывает на средний уровень готовности к медицинскому ИИ. Среди подшкал наивысший средний балл был у этики (4,69), за ним следовали видение (4,44), способность (4,18) и когнитивная (3,92). Частота использования ИИ была значительно связана с готовностью к медицинскому ИИ, в то время как ежедневная продолжительность использования ИИ не имела значительного отношения. Значительных различий по полу не было обнаружено. Когда студенты были разделены на группы с низким (предварительно медицинские годы 1-2) и высоким (медицинские годы 1-4) уровнем, группа с высоким уровнем показала значительно более высокие баллы только в подшкале способности. Результаты показывают, что студенты медицины еще не готовы достаточно использовать технологии ИИ в клинической практике, особенно в отношении знаний и практических навыков, связанных с ИИ. Эти результаты подчеркивают необходимость структурированного и долгосрочного образования по ИИ в медицинских учебных планах для лучшей подготовки будущих врачей к интегрированным в ИИ условиям здравоохранения.
Дисфункция пероксисом приводит к широкому спектру многосистемных заболеваний, однако механистическое понимание и терапевтические опции остаются ограниченными, что создает серьезные трудности для клинического управления. Стратегии вычислительного моделирования на основе сетей поддерживают генерирование гипотез, открытие биомаркеров и перераспределение лекарств, но их использование ограничено неполным охватом человеческого интерактома — особенно нехваткой достоверных данных о взаимодействиях белков (PPI) для пероксисомальных белков. Мы представляем первую всестороннюю карту пероксисомального интерактома, сгенерированную с использованием автоматизированной стратегии биолюминесцентного резонансного энергообмена, направляемой информатикой. Мы проанализировали PPI для 92 пероксисомальных белков и шести изоформ, подтвердив 68% известных взаимодействий и идентифицировав 333 новые. Интеграция с кураторскими PPI привела к расширенному пероксисомальному интерактому, обогащенному мишенями для лекарств и белками, связанными с заболеваниями. Подсеть, связанная с заболеваниями, позволила приоритизировать кандидатов для перераспределения лекарств. Производные от трансприптомных данных тканеспецифические варианты расширенного пероксисомального интерактома раскрыли различные функциональные подсистемы в девяти тканях. Анализ генетической онтологии 1,272 непероксисомальных интеракторов предположил пути, способствующие тканевой уязвимости. Наш подход предоставляет системный уровень для механистической информации о пероксисомальных заболеваниях, определения мишеней для лечения и применения к другим органеллам.
Болезнь Альцгеймера (БА) — это дегенеративное неврологическое заболевание, характеризующееся потерей памяти, ухудшением когнитивных функций и уменьшением объема мозговой ткани. Обнаружить его на ранней стадии сложно из-за вариаций в прогрессировании заболевания и ограниченных возможностей методов нейровизуализации с единственной модальностью. Диагностика болезни Альцгеймера на основе магнитно-резонансной томографии (МРТ) предоставляет дополнительные структурные и функциональные данные, однако существующие методы глубокого обучения часто сталкиваются с проблемами несбалансированности данных, высокой вычислительной сложности и ограниченной обобщаемостью. Для устранения этих пробелов разработана структура извлечения признаков из МРТ на основе EfficientNet для классификации стадий болезни Альцгеймера. EfficientNet, оснащенный комбинированным масштабированием, слоями с разделением по глубине и компонентами сжатием и возбуждением, позволяет точно охарактеризовать корковые структуры и вариации во всем мозге, сохраняя при этом вычислительную эффективность. Извлеченные признаки классифицируются с помощью сети свёрточной многомасштабной внимательной сети на основе сжатия (C-MSACCN), которая объединяет механизмы внимания и стратегии сжатия для повышения точности и снижения сложности модели. Более того, улучшенный оптимизатор соседей клеток (ICNO) тонко настраивает гиперпараметры, находя баланс между исследованием и эксплуатацией для оптимального сходимости и устойчивости. С точностью 99,9%, точностью, полнотой и F1-мерой на наборах данных модель превосходит предыдущие работы. Валидация подтверждает согласованность, а методы визуализации выделяют области, связанные с заболеванием, для предоставления клинической информации.