CLAP: Замкнутая система контроля обучения, оценки и выпуска агентов доменной области после обучения
CLAP: Closed-Loop Training, Evaluation, and Release Control for Domain Agent Post-training
Карточка статьи
Рубрика
Медицина
Источник
arXiv
Дата
02.07.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Краткое резюме
Статья представляет метод CLAP, который преобразует бизнес-данные в структурированные образцы для более эффективного анализа и оценки агентов доменной области после их обучения.
Практический вывод
Методология CLAP помогает более надежно управлять адаптерами в бизнес-приложениях, минимизируя риски и улучшая точность анализа данных.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Некоторые пакеты показали регресс, а высокая вероятность рисков KL требует дальнейшего изучения. Результаты не являются универсальными и могут варьироваться в зависимости от конкретного применения.
В командном обучении студенты, как правило, размещаются в фиксированных командах, основываясь на идее, что стабильное членство в группе способствует сотрудничеству: по мере того как члены команды узнают друг друга, они делятся большей информацией, решают разногласия и чувствуют мотивацию вносить вклад. Однако данная логика не была протестирована в рандомизированном контролируемом исследовании. В данном исследовании сравнивается командное обучение во временных командах с постоянными командами по показателям индивидуальной и командной уверенности (iRAT, tRAT), достижению консенсуса команды, климату обучения и внутренней мотивации. В рандомизированном контролируемом испытании студенты первого курса медицинского факультета были распределены либо по постоянным TBL-командам, либо в команды, которые перераспределялись для каждой задачи. Голосование по тесту уверенности команды (tRAT), submitted индивидуально и конфиденциально, служило косвенным показателем консенсуса команды (согласованные и несогласованные голоса tRAT). Несогласованные tRAT (268, 11.8% всех голосов) подавались чаще в временных, чем в постоянных командах, как для правильных, так и для неправильных решений большинства. Самооценка климата обучения была более кооперативной в постоянных командах, чем в временных, в то время как внутренняя мотивация и результаты tRAT были схожими для обоих типов команд. Плохой климат обучения был связан с более высокой долей несогласованных tRAT. Работа в временных командах не приводит к ухудшению внутренней мотивации; это также ранее было показано для получения знаний. Однако плохой климат обучения вместе с меньшей частотой достижения консенсуса может указывать на то, что, по крайней мере, некоторые члены временных команд чувствуют себя недостаточно оценёнными в обсуждении и не принимают решение большинства. С помощью учебных стратегий, способствующих кооперативному климату обучения в временных командах, предварительные TBL-курсы могут служить ранним формирователем отношений командных компетенций, необходимых для последующего обучения на клиническом рабочем месте в временных командах.
Болезнь Альцгеймера (БА) – это расстройство мозга, которое развивается медленно и в основном затрагивает память, мышление, язык и повседневную деятельность. Это одно из самых распространенных причин деменции и создает множество трудностей как для пациентов, так и для их семей. На ранней стадии симптомы часто слабо выражены и могут напоминать нормальное старение. По этой причине многие люди получают диагноз слишком поздно, когда болезнь уже прогрессирует. В настоящее время полного лекарства от БА не существует. Тем не менее, ранняя диагностика может помочь врачам лучше управлять состоянием пациента и предпринять необходимые шаги вовремя. В этом исследовании предлагается модель машинного обучения для определения ранних стадий болезни Альцгеймера на основе клинических данных, результатов нейропсихологических тестов и мер, связанных с нейровизуализацией. Данные, использованные в работе, собраны из Инициативы по нейровизуализации болезни Альцгеймера (ADNI). Поскольку в наборе данных есть пропущенные значения, применяется итеративная импутация для их заполнения. Набор данных также имеет несбалансированные классы, что решается с помощью метода Borderline SVM-SMOTE. Затем проводится отбор признаков с использованием оберток и встраиваемых методов, чтобы использовать только важные признаки для обучения. Выбранные признаки делятся на обучающие и тестовые наборы, и применяется масштабирование признаков. Разрабатывается ансамблевая модель стекового обучения с использованием логистической регрессии, Extra Trees, Bagging KNN и LightGBM в качестве базовых классификаторов. Кроме того, также обучается искусственная нейронная сеть на том же наборе данных. Эффективность этих моделей сравнивается по таким метрикам, как точность, полнота, F1-меры и AUC-ROC. Цель этого исследования состоит в том, чтобы найти лучший классификатор и выявить важные биомаркеры, которые могут помочь в ранней диагностике болезни Альцгеймера.
Рекуррентные агенты памяти расширяют возможности больших языковых моделей (LLM) для работы с произвольно длинными контекстами, последовательно консолидируя вводимые данные в фиксированное пространство памяти. Несмотря на свою масштабируемость, эти агенты демонстрируют хорошо документированную проблему надежности: общая производительность ухудшается систематически с увеличением длины контекста. Мы диагностируем это падение производительности, разбивая её на два фактора — захват памяти и сохранение памяти — и количественно подтверждаем, что именно сохранение является доминирующим узким местом. Сохранение рушится из-за того, что существующие конструкции поддерживают память как монолитный текстовый блок, что ставит под угрозу каждое обновление, рискуя перезаписать ранее сохраненное содержимое. Учитывая эту диагностику, мы предлагаем Многоцелевую Рекуррентную Память (MHM), общую и не требующую обучения структуру, которая делит память на независимые «головы», управляемые стратегией поэтапного выбора и обновления. На каждом шаге обновляется ровно одна голова, в то время как остальные головы структурно защищены от перезаписи, смещая бремя сохранения из поведения модели на архитектурный дизайн. В качестве легковесной реализации мы вводим MHM на основе принципа «Наименее Недавно Обновлённый» (MHM-LRU), который гарантирует равномерное использование голов с нулевыми дополнительными затратами на токены. Широкие эксперименты на бенчмарках с длинными контекстами показывают, что MHM-LRU значительно улучшает как сохранение информации, так и общую точность в диапазоне от 100K до 1M токенов, где базовые модели резко теряют эффективность. На RULER-HQA при 896K токенов MHM-LRU повышает уровень сохранения памяти с менее чем 30% до 73.96%. Эти достижения обобщаются на различные семейства моделей, масштабирование и типы задач, позиционируя архитектурную оптимизацию как практический и экономичный путь к надежной рекуррентной памяти с длинным контекстом.
Цель: Расстройство дефицита внимания и гиперактивности (СДВГ) является клинически и этиологически гетерогенным, и диагностические решения могут выиграть от интеграции нескольких источников информации. Мы разработали подход объяснимого глубокого обучения, чтобы проверить, могут ли генетические, экологические, когнитивные, демографические и темпераментные данные классифицировать диагностику СДВГ и выявить факторы, способствующие принятию решений модели. Метод: Мы проанализировали участников когорты Oregon ADHD-1000, разделенных на тренировочные, валидационные и тестовые подмножества. Мы обучили модульные нейронные сети для классификации статуса случая-контроля СДВГ с использованием данных генотипа на уровне SNP с биологическими аннотациями, полигенных баллов, демографических данных, конфликтов в родительско-семейной среде, стресса и травмы, геокодированных мер, когнитивных задач, баллов темперамента и индикаторов отсутствия данных. Оптимизация гиперпараметров выбрала архитектуру модели и включение блоков признаков. Мы оценили производительность модели, используя AUC, кривые точности и полноты, анализы калибровки и предсказательной определенности, а также анализ кривой решений. Мы использовали интегрированные градиенты для количественной оценки важности на уровне блока, признака и индивидуальной важности признаков. Результаты: Лучшая модель, использующая черты темперамента, показала AUC 0.97 в удержанном тестовом подмножестве, с высокой точностью, чувствительностью и специфичностью и Brier score 0.06. Лучшая модель, исключающая темперамент, имела AUC 0.75. Анализы важности признаков подчеркнули важность темперамента, демографических и когнитивных доменов в модели, включающей темперамент. Индивидуализированные объяснения показали, что факторы предсказания варьировались между участниками и могли помочь выявить противоречивые или поддерживающие доказательства в различных доменах. Заключение: Объяснимые многомодальные классификационные модели могут интегрировать гетерогенную информацию, релевантную СДВГ, и выявлять признаки, которые способствуют индивидуальным прогнозам. Такие модели могут продвинуть исследования риск-моделирования СДВГ и поддерживать принятие решений клиницистами, особенно в сложных или диагностически неопределенных случаях.
Исследования внешней валидации имеют конечный размер выборки, что создает неопределенность относительно того, превышает ли чистая выгода (ЧВ) модели прогнозирования ЧВ базовых стратегий. Ожидаемая цена идеальной информации (ОПИ) quantifies последствия неопределенности. Текущие методы ОПИ фокусируются на одиночных исследованиях, игнорируя гетерогенность между центрами. Мы расширяем ОПИ и ожидаемую цену частичной идеальной информации (ОПЧИ), чтобы учесть гетерогенность между кластерами в многокцентровых исследованиях и метаанализах. Мы различаем глобальную и локальную оптимальную стратегию, а также наблюдаемые и ненаблюдаемые кластеры. Мы определяем ОПИглобальная, ОПИкластер_j, ОПИкластер и ОПЧИкластер,преобладание, реализованные в R-пакете MetaNB, и иллюстрируем их с помощью систематического обзора, проведенного в 36 центрах, по модели ADNEX для диагностики рака яичников. Предполагая одно глобальное решение по принятию ADNEX, нет необходимости в дополнительных данных для подтверждения, что ADNEX является превосходящим в целом (ОПИглобальная 0). Метаанализ заимствует информацию из наблюдаемых кластеров, что приводит к последовательному локальному превосходству ADNEX и ненулевому, но обычно более низкому ОПИкластер_j, чем при учете только локальных данных. Вероятность того, что базовые стратегии превосходят в ненаблюдаемых центрах, составляет 0.03. Устранение неопределенности в производительности и преобладании в каждом кластерном (ОПИкластер) дало бы 1134 чистых избегнутых ложноположительных результатов (ЛП) в год, предполагая 350000 опухолей ежегодно с 20% злокачественностей. Определение только локального преобладания с уверенностью (ОПЧИкластер, преобладание) дало бы 158 чистых избегнутых ЛП в год. Расширения ОПИ распутывают источники неопределенности и количественно оценивают необходимость дальнейшей валидации для определения глобальной или локально оптимальной стратегии. Учет неопределенности и гетерогенности в клинической полезности между кластерами имеет решающее значение для принятия решения о необходимости дополнительных валидационных исследований.
В данной статье представлен практический каркас поддержки решений в области человеческих ресурсов (HR) для малых компаний и стартапов, основанный на мультидоменной матрице (MDM). Этот каркас решает три ключевые задачи, с которыми сталкиваются малые организации: сложные взаимозависимости между компонентами организации; отсутствие систематических аналитических инструментов для принятия решений в области HR; и необходимость быстрого реагирования в быстро меняющихся организационных средах. Предлагаемый каркас формулирует управление человеческими ресурсами стартапов как проблему структурного моделирования в мультидоменной среде, где участники, навыки и проекты являются взаимосвязанными доменами внутри интегрированной MDM. На основе этого представления каркас предоставляет рекомендации по качественному анализу и количественные метрики для диагностики состояния HR в организации и поддержки решений по перераспределению нагрузки, найму и развитию навыков. Проводится тематическое исследование принятия HR-решений на основе MDM для стартапа в начальной стадии, чтобы продемонстрировать практическую применимость каркаса. Применение показывает, что каркас может выявлять дисбалансы в нагрузке, выявлять ключевого участника с чрезмерной нагрузкой и информировать о последующих решениях по найму. Каркас может быть применён и после найма нового участника для отслеживания изменений в мультидоменной структуре организации и поддержки непрерывной диагностики HR.