Медицина02.07.2026arXivScience Morning3 мин чтенияpreprint

Полное байесовское обучение с подкреплением с помощью LF-IBIS

Full Bayesian Reinforcement Learning via LF-IBIS

Карточка статьи

Рубрика: Медицина
Источник: arXiv
Дата: 02.07.2026
Автор: Science Morning
Время чтения: 3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Аннотация

Обучение с подкреплением (RL) — это метод принятия решений в последовательных задачах, при котором агент обучается оптимальным политикам через взаимодействие с окружающей средой, максимизируя кумулятивные вознаграждения. Среди методов RL байесовское обучение с подкреплением (BRL) решает распространенные практические задачи, связанные с нехваткой данных, используя предварительные знания об окружении и последовательные обновления убеждений. Тем не менее, большинство подходов BRL требуют явной функции правдоподобия, которая часто недоступна или сложна для решения в реальных условиях. Мы предлагаем алгоритм, не требующий вычисления правдоподобия, — Итеративная Выборка Параметров Важности без Явного Правдоподобия (LF-IBIS), который обновляет убеждения агента в режиме онлайн по мере появления новых взаимодействий. Сочетая приближенные байесовские вычисления с итеративной выборкой параметров важности, LF-IBIS позволяет проводить полное байесовское вывод в условиях, когда динамика окружения не описана явным или управляемым правдоподобием. Метод предоставляет приближенные постериорные распределения как для параметров окружения, так и для оптимальных политик, обеспечивая количественную оценку неопределенности политики, что полезно для байесовского анализа компромисса между исследованием и эксплуатацией. Мы тестируем метод на симуляционном исследовании адаптивной рандомизации в клинических испытаниях, где закрытые формы постериоров позволяют провести валидацию. Дополнительные эксперименты рассматривают ситуации, когда постериор не имеет закрытой формы, и демонстрируют онлайн-обновление политики на основе постериорного распределения оптимальной политики.

Краткое резюме

Предложен новый алгоритм LF-IBIS для байесовского обучения с подкреплением, который позволяет обновлять убеждения агента в режиме онлайн без необходимости в явной функции правдоподобия. Он применим в сложных реальных условиях, где традиционные методы ограничены.

Практический вывод

Алгоритм LF-IBIS может быть полезен для принятия решений в условиях нехватки данных, позволяя улучшить исследование и эксплуатацию в таких задачах, как клинические испытания.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. Основными ограничениями метода LF-IBIS являются необходимость в качественной и количественной оценке предварительных знаний об окружении, а также возможные сложности в обновлении постериорного распределения в реальных сценариях обработки данных.

Дальше по теме

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Медицина2 июля 2026 г.

82%

Предсказание ранних стадий болезни Альцгеймера и выявление ключевых биомаркеров с использованием глубоких искусственных нейронных сетей и ансамбля методологий машинного обучения

Болезнь Альцгеймера (БА) – это расстройство мозга, которое развивается медленно и в основном затрагивает память, мышление, язык и повседневную деятельность. Это одно из самых распространенных причин деменции и создает множество трудностей как для пациентов, так и для их семей. На ранней стадии симптомы часто слабо выражены и могут напоминать нормальное старение. По этой причине многие люди получают диагноз слишком поздно, когда болезнь уже прогрессирует. В настоящее время полного лекарства от БА не существует. Тем не менее, ранняя диагностика может помочь врачам лучше управлять состоянием пациента и предпринять необходимые шаги вовремя. В этом исследовании предлагается модель машинного обучения для определения ранних стадий болезни Альцгеймера на основе клинических данных, результатов нейропсихологических тестов и мер, связанных с нейровизуализацией. Данные, использованные в работе, собраны из Инициативы по нейровизуализации болезни Альцгеймера (ADNI). Поскольку в наборе данных есть пропущенные значения, применяется итеративная импутация для их заполнения. Набор данных также имеет несбалансированные классы, что решается с помощью метода Borderline SVM-SMOTE. Затем проводится отбор признаков с использованием оберток и встраиваемых методов, чтобы использовать только важные признаки для обучения. Выбранные признаки делятся на обучающие и тестовые наборы, и применяется масштабирование признаков. Разрабатывается ансамблевая модель стекового обучения с использованием логистической регрессии, Extra Trees, Bagging KNN и LightGBM в качестве базовых классификаторов. Кроме того, также обучается искусственная нейронная сеть на том же наборе данных. Эффективность этих моделей сравнивается по таким метрикам, как точность, полнота, F1-меры и AUC-ROC. Цель этого исследования состоит в том, чтобы найти лучший классификатор и выявить важные биомаркеры, которые могут помочь в ранней диагностике болезни Альцгеймера.

arXivЧитать

Медицина2 июля 2026 г.

82%

Улучшение классификации ультразвуковых изображений через структуру с двумя ветвями, ориентированную на атрибуты

Классификация ультразвуковых изображений имеет важное значение для компьютерной диагностики. Однако современные методы часто игнорируют клинические приоритеты, что приводит к плохой обобщаемости в сложных сценариях и отсутствию интерпретируемости, что ограничивает клиническое применение. Чтобы решить эти проблемы, мы нацелены на разработку модуля медицинских приоритетов, который можно бесшовно интегрировать в существующие конвейеры для повышения как диагностической эффективности, так и интерпретируемости. В данной статье мы предлагаем двухветвевую структуру классификации ультразвука, основанную на атрибутах, которая вводит независимые от домена медицинские атрибуты-приоритеты, улучшая обобщаемость и предоставляя интерпретируемые доказательства. В частности, базовая ветка следует традиционным архитектурам и предсказывает категории изображений с помощью полностью связанного классификатора. Ветка, ориентированная на атрибуты, вводит независимые от домена атрибуты в качестве приоритетов и производит интерпретируемые человеком подсказки для принятия решений. Наконец, адаптивный модуль принятия решений объединяет две ветви в зависимости от данных для получения окончательного предсказания. Эксперименты по различным задачам классификации ультразвука демонстрируют, что наш подход можно интегрировать в несколько основных и современных методов с низкими накладными расходами, постоянно улучшая точность и интерпретируемость.

arXivЧитать

Медицина31 декабря 2026 г.

77%

Консенсус и климат обучения в временных и постоянных командах в процессе командного обучения.

В командном обучении студенты, как правило, размещаются в фиксированных командах, основываясь на идее, что стабильное членство в группе способствует сотрудничеству: по мере того как члены команды узнают друг друга, они делятся большей информацией, решают разногласия и чувствуют мотивацию вносить вклад. Однако данная логика не была протестирована в рандомизированном контролируемом исследовании. В данном исследовании сравнивается командное обучение во временных командах с постоянными командами по показателям индивидуальной и командной уверенности (iRAT, tRAT), достижению консенсуса команды, климату обучения и внутренней мотивации. В рандомизированном контролируемом испытании студенты первого курса медицинского факультета были распределены либо по постоянным TBL-командам, либо в команды, которые перераспределялись для каждой задачи. Голосование по тесту уверенности команды (tRAT), submitted индивидуально и конфиденциально, служило косвенным показателем консенсуса команды (согласованные и несогласованные голоса tRAT). Несогласованные tRAT (268, 11.8% всех голосов) подавались чаще в временных, чем в постоянных командах, как для правильных, так и для неправильных решений большинства. Самооценка климата обучения была более кооперативной в постоянных командах, чем в временных, в то время как внутренняя мотивация и результаты tRAT были схожими для обоих типов команд. Плохой климат обучения был связан с более высокой долей несогласованных tRAT. Работа в временных командах не приводит к ухудшению внутренней мотивации; это также ранее было показано для получения знаний. Однако плохой климат обучения вместе с меньшей частотой достижения консенсуса может указывать на то, что, по крайней мере, некоторые члены временных команд чувствуют себя недостаточно оценёнными в обсуждении и не принимают решение большинства. С помощью учебных стратегий, способствующих кооперативному климату обучения в временных командах, предварительные TBL-курсы могут служить ранним формирователем отношений командных компетенций, необходимых для последующего обучения на клиническом рабочем месте в временных командах.

PubMedЧитать

Медицина1 июля 2026 г.

77%

Техническое замечание: Открытие гематоэнцефалического барьера с помощью сфокусированного ультразвука для доставки терапии модифицированной мРНК в модели болезни Ниманна-Пика типа C на мышах

Эффективная доставка молекулярных терапий в центральную нервную систему (ЦНС) остается основной преградой для лечения невропатических заболеваний, таких как болезнь Ниманна-Пика типа C (NPC). Открытие гематоэнцефалического барьера с помощью сфокусированного ультразвука стало неинвазивной стратегией для повышения доставки систематически вводимых терапевтических препаратов. В данном исследовании мы оценили, может ли данная методика способствовать доставке модифицированной мРНК, упакованной в липидные наночастицы, в мозжечок в модели мышей с NPC. Пилотное исследование на диких мышах продемонстрировало успешное открытие гематоэнцефалического барьера, осуществляемое с помощью сфокусированного ультразвука, доставку мРНК GFP, упакованной в липидные наночастицы, и последующее экспрессирование белка в мозжечке. Затем мы провели контролируемое исследование на мышах с NPC, сравнивая доставку LNP-GFP и LNP-NPC modRNA с использованием внутривенного введения с методикой и без нее. Открытие гематоэнцефалического барьера было подтверждено с помощью контрастной МРТ у животных, прошедших обработку. Количественная ПЦР показала наличие мРНК GFP в мозжечке после применения методики, в то время как мРНК NPC была минимальной или не обнаруженной во всех группах. Тем не менее, экспрессия белков GFP или NPC1 не была обнаружена в мозжечке с помощью вестерн-блота в любой экспериментальной группе. В соответствии с этим, никаких терапевтических эффектов на выживаемость клеток Пуркинье не было наблюдено. Эти результаты демонстрируют, что, хотя данная методика надежно вызывает открытие гематоэнцефалического барьера и может облегчать ограниченную доставку мРНК, упакованной в липидные наночастицы, в мозг, это не приводит к обнаруживаемой экспрессии белков или терапевтическому эффекту в модели NPC при испытанных условиях. Это несоответствие между успешной доставкой у диких мышей и отсутствием эффективности у больных животных указывает на потенциально важные биологические и/или зависимые от формулы барьеры, которые необходимо преодолеть для обеспечения эффективной доставки липидных наночастиц с мРНК терапиями в ЦНС.

bioRxivЧитать

Медицина1 апреля 2027 г.

72%

Эффективность обучения на основе симуляции в области знаний об оказании неотложной помощи среди интерпрофессиональных сотрудников, участвующих в практике гастроэнтероскопии.

Целью настоящего исследования было оценить эффективность обучения на основе симуляции в улучшении возможностей реагирования на неотложные ситуации во время эндоскопической практики. В обучении участвовали врачи, медсестры, лабораторные технологи и клинические инженеры, работающие в отделении эндоскопии. Программа обучения на основе симуляции использовала смоделированные сценарии и проводилась под руководством сертифицированной медсестры по неотложной помощи. Перед началом обучения, сразу после него и через месяц после завершения занятия были проведены тесты на знание. Результаты тестов сравнивались по временным промежуткам и между профессиональными группами. В исследовании приняли участие двадцать два человека (14 врачей, семь медсестер и один лабораторный технолог). Процент правильных ответов улучшился по всем пунктам сразу после обучения по сравнению с результатами до обучения: правильные сжатия груди (< 0,01), препараты для остановки сердца (< 0,01), препараты для лечения анафилаксии (= 0,13), показания к дефибрилляции (< 0,01), местоположение автоматического внешнего дефибриллятора (AED) (= 0,01) и номер телефона службы экстренной помощи (Code Blue) (< 0,01). Однако через месяц после тренировки большинство показателей вернулись к уровням до обучения, за исключением показаний к дефибрилляции и номера телефона службы экстренной помощи. В анализе подгрупп по профессиям, когда сравнивались процент правильных ответов сразу до и сразу после обучения, врачи продемонстрировали значительные улучшения в местоположении AED (= 0,03) и номере телефона Code Blue (< 0,01), тогда как медсестры показали значительное улучшение в использовании препаратов для остановки сердца (= 0,02). Обучение на основе симуляции эффективно для повышения знаний об оказании неотложной помощи в гастроэнтероскопии. Однако может потребоваться повторное или непрерывное обучение для поддержания этих результатов.

PubMedЧитать

Медицина2 июля 2026 г.

72%

MARVEL: Обучение экспертов на основе маржинальной устойчивости для обнаружения выбросов с длинным хвостом

Для клинического применения крайне важно, чтобы автоматизированные диагностические системы оставались надежными при столкновении с ранее не виденными случаями. Однако глубокие модели регулярно неверно классифицируют данные вне распределения (OOD) с высокой уверенностью, подчеркивая необходимость более надежных методов детекции OOD. Хотя значительные усилия были направлены на улучшение устойчивости моделей, большинство существующих исследований предполагает сбалансированные наборы данных, оценивает детекцию OOD на грубых или неклинических источниках OOD или недостаточно всесторонне анализирует различные сценарии OOD. Чтобы восполнить эти пробелы, мы предлагаем новую методологию, обученную на разнообразных и несбалансированных медицинских наборах данных и оцененную на клинически репрезентативном спектре OOD. Наша структура включает три ключевых компонента: (1) нелинейный классификатор von Mises-Fisher (NvMF), способный изучать нелинейные границы решений, с теоретическим доказательством его асимптотической связи с косинусными классификаторами; (2) многопрофильная структура, в которой классификаторы NvMF, учитывающие границу, специализируются на разных областях распределения меток для лучшей обработки несбалансированности; и (3) эксперт по выбросам, специально обученный для различения инлайеров и аутлайеров, тем самым укрепляя детекцию OOD. Оценка на наборах данных RFMiD, ISIC2019 и NCTCRC демонстрирует постоянные улучшения по сравнению с передовыми методами, достигая средних уменьшений FPR95 на 8,45%, 13,02% и 36,90% соответственно. Эти достижения дополнительно поддерживаются всесторонними абляциями, которые подтвердили вклад каждого компонента. Это позволяет надежно идентифицировать незнакомые случаи для передачи клиницистам, поддерживая более безопасную диагностику с использованием искусственного интеллекта в реальных рабочих процессах. Наш код доступен по адресу https://github.com/redboxup/MARVEL.

arXivЧитать