Искусственный интеллект

Модели, алгоритмы, биомедицинский AI и вычислительная наука.

Искусственный интеллект
Искусственный интеллект
Искусственный интеллектPubMedanimal studyEvidence 0

Изучение готовности студентов медицинских специальностей Кореи к использованию искусственного интеллекта: поперечное исследование.

Искусственный интеллект (ИИ) стремительно трансформирует системы здравоохранения и клиническую практику, увеличивая необходимость подготовки будущих врачей к эффективному взаимодействию с технологиями ИИ в клинических условиях. Несмотря на возрастающий интерес к интеграции ИИ в медицинское образование, эмпирические данные о готовности студентов медицины использовать ИИ остаются ограниченными. Настоящее исследование направлено на оценку готовности к медицинскому ИИ среди студентов медицинских вузов Кореи и изучение факторов, связанных с этой готовностью. Было проведено поперечное исследование среди студентов, обучающихся в шестилетней медицинской программе в университете Кореи. Всего в исследовании участвовали 204 студента. Готовность к медицинскому ИИ оценивалась с помощью Шкалы готовности к медицинскому ИИ для студентов (MAIRS-MS), которая охватывает четыре области: когнитивная, способность, видение и этика. Описательная статистика, независимые t-тесты и корреляционный анализ Пирсона проводились с использованием SPSS версии 27. Средний балл готовности к медицинскому ИИ составил 4,19 по 7-балльной шкале Лайкерта, что указывает на средний уровень готовности к медицинскому ИИ. Среди подшкал наивысший средний балл был у этики (4,69), за ним следовали видение (4,44), способность (4,18) и когнитивная (3,92). Частота использования ИИ была значительно связана с готовностью к медицинскому ИИ, в то время как ежедневная продолжительность использования ИИ не имела значительного отношения. Значительных различий по полу не было обнаружено. Когда студенты были разделены на группы с низким (предварительно медицинские годы 1-2) и высоким (медицинские годы 1-4) уровнем, группа с высоким уровнем показала значительно более высокие баллы только в подшкале способности. Результаты показывают, что студенты медицины еще не готовы достаточно использовать технологии ИИ в клинической практике, особенно в отношении знаний и практических навыков, связанных с ИИ. Эти результаты подчеркивают необходимость структурированного и долгосрочного образования по ИИ в медицинских учебных планах для лучшей подготовки будущих врачей к интегрированным в ИИ условиям здравоохранения.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектPubMedcohort studyEvidence 0

Разработка и валидация модели глубокого обучения двойного канала для прогнозирования острого повреждения почек в непрерывном режиме у критически больных пациентов.

Цель данного исследования заключалась в разработке и внешней валидации модели прогнозирования риска острого повреждения почек (ОПП) на 48 часов в реальном времени для критически больных пациентов с использованием модели глубокого обучения двойного канала (DC-AKI). Модель была разработана на основе электронных медицинских записей 28,099 пациентов в медицинском центре Beth Israel Deaconess и внешне валидирована на двух независимых когорт, состоящих из 3,108 пациентов из базы данных eICU и 2,808 пациентов из больницы народного госпиталя провинции Чжэцзян. Тридцать одна изменяющаяся во времени характеристика обновлялась каждые 6 часов. Архитектура модели DC-AKI интегрировала сети BiGRU, свёрточные слои и механизмы внимания для захвата мультишкалярных временных зависимостей. Модель достигла значений площади под кривой операционных характеристик (AUC) 0,720 (95% ДИ, 0,714-0,728) при внутренней валидации и 0,577 (95% ДИ, 0,570-0,583) и 0,798 (95% ДИ, 0,795-0,799) в двух внешних когорт. Анализ интерпретируемости SHAP выявил ключевые клинические предикторы и индивидуальные траектории риска. В заключение, DC-AKI продемонстрировала хорошую предсказательную способность в развивающей когортной популяции и на одном сайте внешней валидации, хотя производительность существенно варьировала в зависимости от учреждений. Необходимо дальнейшая валидация и локальная калибровка для поддержки её клинического применения.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектPubMedanimal studyEvidence 0

Картирование пероксисомального интерактома позволяет моделирование функций и болезней на основе сетевого анализа.

Дисфункция пероксисом приводит к широкому спектру многосистемных заболеваний, однако механистическое понимание и терапевтические опции остаются ограниченными, что создает серьезные трудности для клинического управления. Стратегии вычислительного моделирования на основе сетей поддерживают генерирование гипотез, открытие биомаркеров и перераспределение лекарств, но их использование ограничено неполным охватом человеческого интерактома — особенно нехваткой достоверных данных о взаимодействиях белков (PPI) для пероксисомальных белков. Мы представляем первую всестороннюю карту пероксисомального интерактома, сгенерированную с использованием автоматизированной стратегии биолюминесцентного резонансного энергообмена, направляемой информатикой. Мы проанализировали PPI для 92 пероксисомальных белков и шести изоформ, подтвердив 68% известных взаимодействий и идентифицировав 333 новые. Интеграция с кураторскими PPI привела к расширенному пероксисомальному интерактому, обогащенному мишенями для лекарств и белками, связанными с заболеваниями. Подсеть, связанная с заболеваниями, позволила приоритизировать кандидатов для перераспределения лекарств. Производные от трансприптомных данных тканеспецифические варианты расширенного пероксисомального интерактома раскрыли различные функциональные подсистемы в девяти тканях. Анализ генетической онтологии 1,272 непероксисомальных интеракторов предположил пути, способствующие тканевой уязвимости. Наш подход предоставляет системный уровень для механистической информации о пероксисомальных заболеваниях, определения мишеней для лечения и применения к другим органеллам.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектPubMedanimal studyEvidence 0

Обнаружение болезни Альцгеймера на основе магнитно-резонансной томографии с использованием структуры EfficientNet-CMSACCN.

Болезнь Альцгеймера (БА) — это дегенеративное неврологическое заболевание, характеризующееся потерей памяти, ухудшением когнитивных функций и уменьшением объема мозговой ткани. Обнаружить его на ранней стадии сложно из-за вариаций в прогрессировании заболевания и ограниченных возможностей методов нейровизуализации с единственной модальностью. Диагностика болезни Альцгеймера на основе магнитно-резонансной томографии (МРТ) предоставляет дополнительные структурные и функциональные данные, однако существующие методы глубокого обучения часто сталкиваются с проблемами несбалансированности данных, высокой вычислительной сложности и ограниченной обобщаемостью. Для устранения этих пробелов разработана структура извлечения признаков из МРТ на основе EfficientNet для классификации стадий болезни Альцгеймера. EfficientNet, оснащенный комбинированным масштабированием, слоями с разделением по глубине и компонентами сжатием и возбуждением, позволяет точно охарактеризовать корковые структуры и вариации во всем мозге, сохраняя при этом вычислительную эффективность. Извлеченные признаки классифицируются с помощью сети свёрточной многомасштабной внимательной сети на основе сжатия (C-MSACCN), которая объединяет механизмы внимания и стратегии сжатия для повышения точности и снижения сложности модели. Более того, улучшенный оптимизатор соседей клеток (ICNO) тонко настраивает гиперпараметры, находя баланс между исследованием и эксплуатацией для оптимального сходимости и устойчивости. С точностью 99,9%, точностью, полнотой и F1-мерой на наборах данных модель превосходит предыдущие работы. Валидация подтверждает согласованность, а методы визуализации выделяют области, связанные с заболеванием, для предоставления клинической информации.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектPubMedanimal studyEvidence 0

Большие языковые модели точно определяют причины решений в устных отчетах.

Понимание причин, стоящих за человеческими выборами в условиях риска, является центральной целью науки о принятии решений, однако традиционные методы, основанные на поведенческих данных, ограничены строгими предположениями о неизменности. Мы представляем масштабируемую аналитическую структуру с использованием больших языковых моделей (BLM) для анализа устных отчетов и выявления сформулированных причин выбора между денежными лотереями. Проверенная BLM точно определила предопределенные причины решений в свободных текстовых отчетах участников, что совпало с их фактическими выборами в 95% случаев. Наш анализ показывает, что причины, лежащие в основе решений людей, варьируются систематически и в большей степени зависят от структуры проблемы выбора, чем от индивидуальных различий. Важно отметить, что причины, полученные из устных отчетов, предоставляют более экономичные и информативные представления процессов принятия решений, чем те, что исходят только из выборов; кроме того, профили причин, специфичных для проблемы, достигают точности предсказаний вне выборки, которая сопоставима с установленными вычислительными моделями. Эта работа демонстрирует, что устные отчеты являются богатым источником данных, и наша аналитическая структура может раскрыть их потенциал, предоставляя результаты, которые ставят под сомнение основные предположения о неизменности в этой области и прокладывают путь к более контекстно чувствительным и интерпретируемым моделям человеческого принятия решений.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектPubMedanimal studyEvidence 0

Комбинаторное принятие решений, основанное на многокомпонентных поверхностных конденсатах.

Живые организмы полагаются на молекулярные сети, такие как генетические цепи и сигнальные пути, для обработки информации и надежного принятия решений в переполненных и шумных средах. Последние достижения показывают, что взаимодействующие биомолекулы самоорганизуются посредством фазовых переходов в сосуществующие пространственные компартменты, называемые конденсатами, зачастую на клеточных поверхностях, таких как хроматин и мембраны. В данной работе мы демонстрируем, что многокомпонентные жидкости могут быть спроектированы для рекрутинга различных конденсатов на поверхности с различными составами, выполняя форму классификации поверхности посредством конденсации. Мы проводим аналогию с многомерной классификацией в машинном обучении и исследуем, как скрытые виды, аналогичные скрытым узлам, расширяют выразительность и емкость этих взаимодействующих ансамблей для облегчения сложных границ решений. Простое изменение уровней отдельных видов позволяет повторно запрограммировать тот же молекулярный репертуар для решения новых задач. Наши выводы показывают, что физические процессы, лежащие в основе биомолекулярных конденсатов, могут кодировать и управлять адаптивной обработкой информации, выходя за рамки компартментализации.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектPubMedanimal studyEvidence 0

Предвосхищающая и тематически специфическая нейронная осцилляция предсказывает эстетическую оценку поэзии.

Поэзия конденсирует язык в минимальные формы, вызывая эмоции, визуальные образы и эстетические суждения, однако нейронная основа таких оценок остается плохо изученной. Мы исследовали, как мозг оценивает две структурно сопоставленные, но тематически разные поэтические формы: хайку на тему природы и сенрю на тему эмоций. Участники читали стихи и оценивали их по пяти критериям - эстетическая привлекательность, яркость образов, эмоциональная вовлеченность, оригинальность и креативность - в то время как записывалась ЭЭГ. Используя многоклассовые модели градиентного бустинга с SHapley Additive exPlanations, мы предсказали оценочные рейтинги на основе осцилляторных нейронных характеристик в разных временных окнах и областях скальпа. Модели показали лучшие результаты по сравнению с линейными базовыми моделями и имели ограниченную обобщаемость между темами, указывая на контентно-специфическое нейронное кодирование. Обнаружились различия в процессах обработки: сенрю продемонстрировала более сильные вкладки в бета-диапазон, в то время как хайку задействовало более распределенные многочастотные динамики. Временные профили также различались, при этом хайку показывало устойчивое вовлечение на этапах чтения и размышления, а сенрю демонстрировала более раннюю оценку во время чтения. Предшествующая нейронная активность способствовала предсказанию последующих оценок, что предполагает роль предвосхищающего состояния мозга в эстетической оценке. По всем стихотворениям оценочные измерения сходились на доминирующей общей оси, которая надежно предсказывалась на основе нейронных характеристик. В совокупности эти результаты указывают на то, что эстетическая оценка поэзии отражает взаимодействие между предвосхищающими нейронными состояниями, контентно-специфической осцилляторной динамикой и процессами, специфичными для измерений, организованными вокруг общей оценочной оси. Эта работа устанавливает поэзию как удобную модельную систему для изучения того, как мозг конструирует смысл и ценность из минимального языкового ввода.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектPubMedanimal studyEvidence 0

К направлению автономной роботизированной и микророботизированной хирургии.

Автономная роботизированная хирургия (АРХ) стала многообещающей целью в области биомедицинских технологий, дополнительно усовершенствованной миниатюризацией в направлении микророботизированной хирургии (μ-АРХ). Это уменьшение масштаба обещает малотравматичные, частично или полностью автоматизированные хирургические процедуры, способные сократить время восстановления пациентов, снизить медицинские расходы и предоставить ранее недоступные процедурные возможности. Данная перспектива подчеркивает конкретные достижения в АРХ, которые потенциально могут быть адаптированы для микромасштаба (μ-АРХ), организованные по пяти хирургическим направлениям: эндоваскулярная, эндолюмinale, лапароскопическая, офтальмологическая и ортопедическая. Мы исследуем как клинические потребности, так и технологические достижения в области хирургической робототехники и выделяем ключевые инновации, необходимые для прогресса в этих хирургических областях. Наш вклад уникален тем, что объединяет взгляды как хирургических экспертов, так и новаторов в области биомеханики, очерчивая дорожную карту для продвижения и окончательной интеграции автономной АРХ и μ-АРХ в основное хирургическое практику.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектPubMedcohort studyEvidence 0

Двунаправленный анализ ишемического инсульта на основе спектров SERS мочи и ультразвука ствола сонной артерии.

Достижение ненавязчивого высокочастотного мониторинга ишемического инсульта (ИИ) остается важной клинической задачей для своевременного вмешательства и точной вторичной профилактики. Установление точных корреляций между системными микроскопическими молекулярными отпечатками пациентов и локализованными макроскопическими патологическими событиями в органах является необходимым для преодоления ограничений одномодального выявления и повышения эффективности клинической оценки риска. Однако, учитывая сложность гетерогенных данных, эффективная интеграция кросс-мерных данных «молекулярной визуализации» остается критическим узким местом на пути к достижению этой цели. В данном исследовании мы представляем метод, подтверждающий возможность различия между пациентами с подтвержденным ИИ и здоровыми контрольными группами (ЗК), который использует методы машинного обучения (МЛ) в сочетании с поверхностно-усиленной рамановской спектроскопией (SERS) мочи (одномерные данные) и ультразвуковым изображением ствола сонной артерии (CBI) (двухмерные данные). В экспериментальной когорте из 101 участника данный подход проанализировал 10 100 спектров SERS и 481 изображение CBI, достигнув 92% точности классификации и площади под кривой (AUC) 0,95. Более того, с помощью комбинации спектров SERS и технологии жидкостной хроматографии-масс-спектрометрии данное исследование предварительно исследовало различия в мочевых биомаркерах между группами ЗК/ИИ. Предложенная в этом исследовании стратегия многомерного слияния данных эффективно преодолевает информационный разрыв между традиционным молекулярным выявлением и клиническими фенотипами, систематически соотнеся микрофлюидные биомаркеры с макроорганными изображениями. Этот подход предоставляет ранее не исследованный, ненавязчивый и высокоточный инструмент для стратификации риска и клинического принятия решений при классификации групп ЗК/ИИ.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектarXivpreprintEvidence 0

KRCA: Эффективная система анализа коренных причин в гипермасштабируемых микросервисных системах с использованием агентного ИИ

Гипермасштабируемые микросервисные системы стали стандартной инфраструктурой для крупных интернет-компаний. Эти системы состоят из множества слабо связанных микросервисов, которые развиваются независимо через постоянную разработку и развертывание. Такая сложность делает сбои неизбежными, что требует эффективного анализа коренных причин (RCA), чтобы помочь инженерам по надежности сайтов (SRE) быстро локализовать корневые сервисы и классифицировать типы сбоев. Однако существующие методы RCA часто сталкиваются с трудностями в адаптации к экстремальной динамичности и масштабам этих систем. В этой работе мы представляем KRCA, сквозную систему RCA, разработанную для гипермасштабируемых микросервисных систем. Для управления обширным пространством поиска KRCA использует многоступенчатый конвейер, который начинается с досконального анализа на уровне API для изоляции подозрительных сервисов. Затем он создает граф причинно-следственных связей на основе аномальных метрик, чтобы служить высокореколлным структурным приоритетом, прежде чем использовать память-расширенную многоагентную структуру для проверки причинности и генерации окончательного отчета о сбое. Объединив структурированные причинно-следственные ограничения с многоагентным рассуждением, KRCA обеспечивает баланс между диагностической точностью и требованиями к эффективности для использования в реальном времени. Экспериментальные результаты показывают, что KRCA достигает оценок AC@1 0.88 и 0.79 для локализации корневых сервисов и классификации типов сбоев, превосходя самые сильные базовые показатели по крайней мере на 31% в абсолютных приростах. KRCA была внедрена в производственной среде Kuaishou на протяжении более шести месяцев, что позволило сократить среднее время диагностики на 77.3%.

Предварительная публикация без научного рецензирования.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектPubMedanimal studyEvidence 0

Алгоритмы машинного обучения для определения пола по измерениям черепа и таза, полученным с помощью 3D-компьютерной томографии.

Определение пола по останкам скелета является ключевым элементом судебной антропологии, при этом череп и таз являются наиболее различимыми по полу элементами с точки зрения морфологии. Традиционные морфометрические подходы, такие как дискриминантный анализ и логистическая регрессия, достигли высокой точности в оценке пола среди различных популяций, включая южноафриканцев. Однако использование машинного обучения (МЛ) для определения пола на основе измерений черепа и таза еще не было исследовано ни в одной южноафриканской популяции. Это исследование оценивало потенциал алгоритмов МЛ для определения пола по черепным и тазовым измерениям, полученным с помощью компьютерной томографии (КТ) современных чернокожих южноафриканцев. В выборку вошли 680 элементов скелета (400 черепов и 280 тазовых костей) с равным распределением мужчин и женщин. КТ-сканы, архивируемые в Отделе радиологии Академической больницы Шарлотты Макеке в Йоханнесбурге, были реконструированы в 3D-модели с помощью программного обеспечения Xiris и IntelliSpace, откуда были собраны восемь черепных и одиннадцать тазовых измерений. Применялись семь классических алгоритмов МЛ, и использовались методы ранжирования признаков для определения наиболее информативных переменных для оценки пола. Затем была разработана модель стекового обучения МЛ, в которую были включены три лучших классификатора в качестве базовых моделей. Их выводы были объединены и переданы различным алгоритмам МЛ, которые выступали в роли мета-обучающих для финальной классификации. Результаты подтвердили сильный половой диморфизм в черепных и тазовых костях, а стековые модели достигли высокой точности (череп: 80,3-94,3%; таз: 86,1-96,1%) по сравнению с традиционными многовариантными методами, демонстрируя потенциал МЛ в судебном определении пола.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектPubMedanimal studyEvidence 0

Компактная четырехпортовая MIMO-антенна с круглой поляризацией, вдохновленная машинным обучением, для многодиапазонных беспроводных приложений.

В данной работе представлена компактная MIMO-антенна с четырьмя элементами, демонстрирующая резонанс на частотах 6.39 ГГц, 11.09 ГГц, 14.69 ГГц и 17.96 ГГц, охватывающая диапазоны C, X и Ku соответственно в рамках одной компактной структуры. Разработанная четырехэлементная MIMO-антенна использует Y-образную радиирующую монопольную конфигурацию с соединённымиGround-элементами для удобной интеграции в системы. Также разработанная MIMO-антенна достигает геометрически обусловленной круглой поляризации (CP) под определёнными углами возвышения без внешних фазовращателей или паразитных структур, что приводит к повышенной надежности против затухания многопутевых сигналов и несовпадения поляризаций. Кроме того, критически важный параметр высокой изоляции между элементами поддерживается (Sij < -20 дБ), эффективно подавляя взаимные помехи. Параметры представленного дизайна четырехпортовой антенны также оптимизированы с использованием различных алгоритмов машинного обучения, причем модель гауссовской регрессии оказалась наиболее подходящей, обеспечивая наилучшие показатели возвратных потерь. В заключение, разработанная четырехпортовая MIMO-антенна была изготовлена, и её прототип протестирован для валидации смоделированных результатов. Компрéhенсивный анализ характеристик разнообразия демонстрирует параметры ECC (≤ 0.001), DG (≈ 10 дБ), CCL (< 0.2 б/с/Гц) и TARC (> 9.99), что обеспечивает эргодическую пропускную способность канала, превышающую 9 б/с/Гц. Средняя эффективность наблюдается на уровне 57% по всем диапазонам с пиковым усилением 9.78 дБи на 17.96 ГГц, что делает это решение высокоинтегрированным, надежным и перспективным для CP-MIMO систем связи, делая его сильным кандидатом для спутниковых и современных беспроводных приложений.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектPubMedotherEvidence 0

Искусственный интеллект и диагностика болезни Хиршпрунга.

В исследовании рассматривается использование технологий искусственного интеллекта для диагностики болезни Хиршпрунга, редкого расстройства кишечника, характеризующегося отсутствием нервных клеток в определенных участках толстого кишечника. AI может помочь в улучшении точности и скорости диагностики, что особенно важно для ранней интервенции.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектPubMedanimal studyEvidence 0

WUSTCA: улучшенная классификация радиочастотных сигналов БПЛА с использованием вейвлет-преобразования и механизмов внимания STCA.

Беспилотные летательные аппараты (БПЛА) играют важную роль в различных гражданских и коммерческих приложениях, что требует точной классификации их радиочастотных (РЧ) сигналов. Современные подходы на основе глубокого обучения сталкиваются с высокой вычислительной сложностью, чувствительностью к шуму и ограниченной точностью. В данной статье предлагается новая структура классификации сигналов БПЛА, которая сочетает в себе вейвлетное извлечение признаков с иерархической архитектурой U-Net, дополненной механизмами внимания с раздельным временем (STCA) и остаточной связанностью. Модель WUSTCA эффективно классифицирует сигналы БПЛА и их контроллеров, достигая средней точности классификации 96,6% для БПЛА и 95,83% для контроллеров БПЛА на наборе данных CardRF. Решая такие проблемы, как помехи шума и разнообразие сигналов, данная работа предоставляет надежное и эффективное решение для классификации сигналов БПЛА, открывая путь для приложений в реальном времени в сложных условиях.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектPubMedanimal studyEvidence 0

Генерация клинических отчетов о лекарственных препаратах с использованием многофазных моделей с подсказками.

Исследование посвящено использованию многофазных моделей с подсказками для автоматизации процесса генерации клинических отчетов о лекарственных препаратах. Основное внимание уделяется применению таких моделей в области ветеринарии, где проводились эксперименты на животных для оценки эффективности данной методологии.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектPubMedanimal studyEvidence 0

Starmate: Легковесный ИИ-ассистент для опекунов людей с аутизмом, разработанный и оценённый с использованием ориентированной на пользователя смешанной методологии.

Аутизм и расстройства спектра аутизма (РАС) затрагивают десятки миллионов семей по всему миру, однако родители сталкиваются с обилием, но ненадёжными онлайн-советами и ограниченным доступом к своевременному, сочувственному руководству. Чтобы заполнить этот критический пробел, мы разработали Starmate (http://kefeng.mpu.edu.mo/starmate) — ИИ-ассистент с 1,5 миллиарда параметров, адаптированный для опекунов людей с РАС, используя строгую ориентированную на пользователя смешанную методологию. На основе углублённых интервью и опроса Kano, который выявил «практическое руководство» как необходимое требование для опекунов, мы сконструировали новую модульную архитектуру, интегрирующую анализ настроений, извлечение знаний на основе графов, проверенное экспертами (LightRAG), и модель Qwen2.5-1.5B, специально подстроенную под нашу домен. В слепом сравнении с ведущими коммерческими крупными языковыми моделями, Starmate показал улучшенные результаты по ключевым метрикам в рамках данной оценки (86.76 против 78.43-83.84) и продемонстрировал конкретные преимущества в области эмпатии, практического руководства и логической ясности. Автоматизированное бенчмаркинг также подтвердило эти результаты, с высокими оценками по профессиональной точности (86.18), эмпатии (86.79) и практическому руководству (82.58). Эти результаты демонстрируют техническую возможность легковесной, ориентированной на конфиденциальность, специализированной крупной языковой модели для генерации точных, эмпатичных и действенных ответов в бенчмаркинговых сценариях, создавая основу для будущей реальной пригодности и клинического тестирования.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектarXivpreprintEvidence 0

Измерение разрыва между идеями исследований человека и языковых моделей

Языковые модели (ЯМ) все чаще используются для генерации идей для исследований, но существующие оценки в основном судят о каждой идее по таким критериям, как новизна, осуществимость или предпочтения экспертов. Вместо этого мы задаем вопрос: насколько далеко находятся текущие идеи, сгенерированные ЯМ, от идей человеческих исследователей? Чтобы охарактеризовать этот разрыв, мы разрабатываем рамки крупномасштабной оценки идей на основе высококачественных научных статей. Для каждой статьи мы проводим обратную разработку небольшого набора тесно связанных предыдущих работ, которые, вероятно, вдохновили ее основную идею. Затем ЯМ получают задание сгенерировать новую идею на основе набора заголовков и аннотаций статей. Мы представляем таксономию вкусов в исследованиях по двум осям, чтобы охарактеризовать каждую идею по ее паттерну возможностей и исследовательской парадигме, и используем ее для количественной оценки различий между человеческими и ЯМ-генерированными идеями. В различных наборах идей, сгенерированных разными ЯМ, мы наблюдаем постоянный распределительный разрыв: идеи ЯМ непропорционально сосредоточены вокруг возможностей синтеза и аналогий, в то время как распределение ссылок на человеческие работы намного шире и охватывает более разнообразные способы формирования разрывов и конструкций вкладов. Этот результат указывает на то, что мощные ЯМ могут производить ряд разумных идей, но этот диапазон остается уже и систематически смещенным по сравнению с исследовательским вкусом человека.

Предварительная публикация без научного рецензирования.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектarXivpreprintEvidence 0

Хватает ли одного слоя? Обучение одного слоя трансформера может сопоставиться с полным обучением с подкреплением

Обучение с подкреплением (RL) стало центральным компонентом постобучения крупных языковых моделей (LLMs), однако мало что известно о том, как адаптация RL распределена по слоям трансформера. Существующие подходы обычно обновляют все параметры модели равномерно, подразумевая, что каждый слой вносит схожий вклад в приросты, достигнутые в процессе постобучения с использованием RL. В данной работе мы ставим под сомнение это предположение через систематическое изучение обучения RL по слоям. Удивительно, но мы обнаружили, что обучение одного слоя трансформера может воспроизвести большую часть приростов, достигнутых при полном обучении с RL, а в некоторых случаях даже превзойти его. Чтобы количественно оценить это явление, мы вводим величину "вклад слоя", которая измеряет долю полного улучшения RL, достигнутого благодаря обучению слоя в изоляции. В рамках семи моделей, охватывающих две семейства моделей (Qwen3, Qwen2.5), три алгоритма RL (GRPO, GiGPO, Dr. GRPO) и несколько областей задач, включая математическое рассуждение, генерацию кода и агентное принятие решений, мы наблюдаем замечательно стабильный паттерн: приросты RL сосредоточены в небольшом подмножестве, а в большинстве случаев даже в одном слое трансформера. Более того, тот же структурный паттерн последовательно возникает: слои с высоким вкладом сосредоточены в середине стека трансформера, тогда как слои ближе к входу и выходу вносят значительно меньший вклад. Ранжирование слоев при этом остается сильно коррелированным между датасетами, задачами, семействами моделей и алгоритмами RL.

Предварительная публикация без научного рецензирования.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектarXivpreprintEvidence 0

Имитационное обучение с критикой языка на основе субоптимальных демонстраций

Предыдущие работы по имитационному обучению на основе субоптимальных демонстраций обычно полагаются на сжатые сигналы супервизии, такие как оценки уверенности, баллы дискриминатора или веса важности. Эти скалярные сигналы имеют свои ограничения, так как не могут явно выразить промежуточные размышления о ходе выполнения задачи, режимах неудачи или корректирующих действиях. Мы предлагаем рамки имитационного обучения с критическим анализом языка, которое вместо этого использует естественный язык в качестве структурированного сигнала супервизии, избегая сворачивания выразительной обратной связи в скаляры. Наш метод сначала создает языковые метки на основе демонстраций, которые явно описывают текущий прогресс, идентифицируют субоптимальное поведение и предоставляют детализированные корректирующие рекомендации. Затем мы вводим функцию потерь критики языка, которая непосредственно обучает политики, используя эти структурированные сигналы, не сводя их к скалярам, и инстанцируем ее для как имитационного клонирования поведения, так и диффузионных политик, получая LC-BC и LC-DP. Мы также предоставляем теоретический результат, показывающий, что предложенная цель обеспечивает верхнюю границу разрыва производительности эксперта при стандартных предположениях. Эмпирически мы проводим оценку на различных задачах непрерывного управления, охватывающих навигацию, манипуляцию и игровую деятельность, где наши методы последовательно превосходят сильные базы имитационного обучения и оффлайн обучения с подкреплением. Эти результаты демонстрируют, что язык может служить мощной и структурированной формой супервизии для обучения устойчивым политикам на основе субоптимальных данных.

Предварительная публикация без научного рецензирования.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектarXivpreprintEvidence 0

AutoMem: Автоматизированное изучение памяти как когнитивного навыка

Экспертиза в памяти является приобретенным навыком: знание того, что кодировать, когда извлекать и как организовывать знания — это способность, известная в когнитивной науке как метапамять. Мы применяем эту перспективу к большим языковым моделям (LLMs), рассматривая управление памятью как обучаемый навык. Мы придаем операциям файловой системы статус основных действий памяти наряду с действиями по выполнению задач, позволяя модели самостоятельно решать, как управлять своей памятью. Этот навык памяти улучшается по двум направлениям: структура, которая его поддерживает (подсказки, схемы файлов, словарь действий), и умение модели его применять. Оба направления устойчивы к ручной оптимизации: эпизоды в долгосрочных задачах выполняются на протяжении тысяч шагов, и одна ошибка в памяти может оставаться незамеченной на долгое время, что делает человеческий обзор полных траекторий непрактичным. Мы представляем AutoMem, фреймворк, который автоматизирует оба направления. В первом цикле сильная LLM просматривает полные траектории агента и итеративно пересматривает структуру памяти, которая определяет, как агент взаимодействует со своими файлами памяти. Во втором цикле хорошие решения агента по памяти идентифицируются из множества эпизодов и используются в качестве обучающего сигнала для прямого улучшения мастерства модели в управлении памятью. В трех процедурно сгенерированных долгосрочных играх (Crafter, MiniHack и NetHack) оптимизация памяти отдельно — без изменения поведения модели в действиях по выполнению задач — улучшила производительность базового агента примерно в 2-4 раза, позволив 32B модели с открытыми весами конкурировать с передовыми системами, такими как Claude Opus 4.5 и Gemini 3.1 Pro Thinking. Наши результаты показывают, что управление памятью является независимо обучаемым навыком и представляет собой цель с высоким потенциалом, обеспечивающую значительные улучшения в долгосрочных задачах.

Предварительная публикация без научного рецензирования.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектarXivpreprintEvidence 0

Теория: Проверка приемлемости переработанных выводов на основе неформальных рассуждений

Когда можно доверять ответу системы ИИ? Формальные помощники в доказательствах предлагают определенность, но не могут охватить большинство распределений задач; линейные LLM-судьи обеспечивают покрытие, но выдают непрозрачные оценки, которые не могут быть проверены после факта и подвержены тем же проблемам согласованности, что и любые LLM. Мы представляем Теорию — архитектуру верификации, которая заполняет этот пробел. Кандидатское решение переписывается в последовательность типизированных переходов состояний, каждый из которых оправдан явным обоснованием — будь то цитата, вычисление или заданный факт, и каждый переход может быть проверен независимо. Основное инвариантное требование состоит в полноте изменений: каждое отличие между последовательными состояниями доказательства должно быть учтено, чтобы скрытые предпосылки обнажались как несанкционированные мутации, а не проходили молча. На HLE-Verified Gold (185 задач для экспертов только с текстом) Теория сертифицирует 105 задач с 91.4% строгой точностью (доверительный интервал Уилсона 95% [84.5%, 95.4%]). Каждая сертификация приводит к читабельному следу доказательства, в котором каждый шаг может быть оспорен независимо. Холистические LLM-судьи достигают сопоставимой точности при аналогичном покрытии, но не справляются с разными задачами (Jaccard 0.14-0.36), что делает эти подходы дополнителями. Из 95 атакованных поврежденных доказательств в 15 областях структурированные судьи находят 94.7%, по сравнению с 83.2% для холистического судейства (p= 0.0017). В целом 11.5 процентных пункта разница сосредоточена на скрытых предпосылках (90.6% против 62.5%, разница в 28 процентных пунктов) и сфабрикованных цитатах (100% против 90%), что является классами ошибок, где формальный анализ предсказывает преимущество; производительность идентична в случаях арифметических и ошибочных применений теорем, где преимущество не предсказывается. На GPQA Diamond (n= 65) сертифицированная точность составила 97.1% (доверительный интервал Уилсона [85.1%, 99.5%]).

Предварительная публикация без научного рецензирования.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектarXivpreprintEvidence 0

Гипотеза разделения предсказания состояния

Трансформеры используют один и тот же поток вычислений для предсказания следующего токена и хранения полезного состояния для будущих предсказаний токенов. Мы формулируем гипотезу о разделении предсказания состояния: разделение этих двух ролей обеспечивает лучшую производительность языкового моделирования. Мы разрабатываем вариант трансформера, который использует два вычислительных потока для разделения этих функций, и проводим эксперименты по предварительному обучению на данных различного масштаба. Наши эксперименты показывают, что разделение предсказания состояния последовательно предлагает лучшую эффективность данных и вычислений, улучшая показатель валидации и превосходя стандартные трансформеры в среднем на 2-3 процентных пункта по downstream задачам. Мы также проводим обширный эмпирический анализ, который исключает потенциальные конфаундеры и демонстрирует принципиальное различие в градиентах, которое влечет наш дизайн.

Предварительная публикация без научного рецензирования.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектarXivpreprintEvidence 0

Осязание и восприятие данных: Повторно используемый программный конвейер для тактильных статистических графиков в доступном образовании

Статистическая визуализация обычно рассматривается как визуальный носитель, но данные также можно воспринимать на ощупь. Трехмерные тактильные графики позволяют студентам с нарушениями зрения ощущать распределения, отслеживать тенденции и исследовать взаимосвязи через прямое тактильное взаимодействие. Однако использование таких графиков в классе остается ограниченным, поскольку создание каждого графика в CAD-программном обеспечении требует специализированных навыков и часов ручной работы. Мы рассматриваем эту проблему как программную через трехуровневый повторно используемый конвейер, состоящий из около 1500 строк JavaScript. Первый уровень автоматически извлекает параметры тактильного дизайна на основе размеров пластины с использованием исследований в области тактильного восприятия. Второй уровень предоставляет общую структуру графиков и пять модульных средств для построения разбросов, столбчатых диаграмм, гистограмм, линейных графиков и бокспотов. Необязательный третий уровень использует мультимодельную языковую модель для извлечения структурированных спецификаций графиков из загруженных изображений, с обязательной проверкой со стороны учителя перед созданием печатной версии. Конвейер генерирует готовые для печати двоичные файлы на языке стандартной тесселяции за менее чем 250 миллисекунд. Мы представляем дизайн, производительность и ограничения.

Предварительная публикация без научного рецензирования.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектarXivpreprintEvidence 0

FurnitureVLA: Обучение долгосрочной бимануальной сборке мебели с помощью модели видение-язык-действие

Текущие исследования в области роботизированной сборки мебели в основном сосредоточены на игрушечных масштабах или манипуляциях с одной рукой. Мы представляем FurnitureVLA, первое систематическое исследование бимануальной сборки мебели в реальном масштабе с использованием моделей видения-языка-действия (VLA). Мы формализуем задачу, разрабатываем масштабируемый симуляционный конвейер для генерации и оценки экспертных данных и создаем систему телеприсутствия в виртуальной реальности для управления бимануально одним оператором с целью сбора качественных демонстраций из реального мира. Чтобы справиться с экстремально долгосрочной сборкой, которая включает до 7 подсостояний и 1550 контрольных шагов, мы предлагаем улучшенную модель VLA, донастроенную на семантически обоснованные подсостояния, которая совместно предсказывает действия и непрерывный сигнал прогресса, позволяя автоматически переходить между подсостояниями и снижая накопление ошибок во время вывода. Мы также исследуем факторы проектирования восприятия и управления, которые критически влияют на точность в сборке в реальном масштабе. FurnitureVLA улучшает средний уровень успеха симуляции с 48% до 80% по сравнению с базовыми показателями для трех типов мебели, с дополнительным приростом в 21% благодаря изучению факторов проектирования. Мы валидируем на реальной платформе Kinova Gen3 с только 16% снижением на наиболее сложной задаче.

Предварительная публикация без научного рецензирования.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектarXivpreprintEvidence 0

Надежно ли производительность-оптимизационные бенчмарки измеряют качество кода агентов?

Бенчмарки производительности на уровне репозитория, такие как GSO, SWE-Perf и SWE-fficiency, оценивают кодирующие агенты, применяя патчи к реальным репозиториям и сравнивая время выполнения с неоптимизированными базовыми версиями и официальными эталонными патчами. Их ранговые баллы все чаще используются как доказательство прогресса кодирующих агентов, но эти баллы могут путать нестабильность времени выполнения, специфические правила оценки бенчмарков и количество задач, уже решенных хотя бы одним публичным представлением. Мы проводим аудит этих вопросов по трем бенчмаркам. Во-первых, мы повторяем официальные эталонные патчи для 740 задач оптимизации кода на четырех распространенных типах машин Google Cloud. Большинство задач бенчмарка можно воспроизвести, но их эталонные патчи удовлетворяют оригинальным правилам действительности бенчмарка в каждом взаимном воспроизведении только для 39 из 102 задач GSO, 11 из 140 задач SWE-Perf и 411 из 498 задач SWE-fficiency; SWE-Perf особенно хрупок, поскольку многие эталонные патчи приводят к изменениям времени выполнения, близким к нулю. Во-вторых, мы показываем, что рейтинги публичных представлений сильно зависят от правил оценки бенчмарка. Среди восьми публичных представлений, представленных GSO и SWE-fficiency, официальные рейтинги расходятся по 9 из 28 парных сравнений представлений, а правила оценки рангового списка SWE-fficiency присваивают наихудшим десяти задачам неоправданно высокие веса баллов от 58,5% до 82,8%. В-третьих, если взглянуть на 10 публичных представлений для каждой задачи, мы обнаруживаем, что хотя бы одно представление соответствует или превосходит эталонный патч по 85,3% (384 из 450) задач GSO и SWE-fficiency и превосходит неоптимизированный базовый код по 99,8% (449 из 450). Наше исследование дополняет ранговые баллы, выявляя задачи с более надежными показателями производительности, количественно оценивая вклады в баллы по задачам и раскрывая оставшиеся разрывы в производительности, которые скрыты под агрегированными рейтингами.

Предварительная публикация без научного рецензирования.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектarXivpreprintEvidence 0

Выявление скрытых предвзятостей в языковых моделях с помощью дистилляции

Языковые модели, используемые в ситуациях с высокими ставками, могут потенциально благоприятствовать определенным субъектам, брендам или точкам зрения, влияя на решения пользователей в масштабах. Такие предвзятости могут быть внесены любым участником цепочки поставок модели и представляют наибольшую опасность, когда модель проявляет свои предпочтения только по соответствующей теме, оставаясь при этом идентичной своей незамененной базе по всем другим входным данным. Недавние исследования показали, что эти предвзятости могут передаваться через дистилляцию контекста на семантически не связанных данных, сигнал при этом полностью содержится в распределении мягких логитов и остается невидимым для текстовой инспекции. Однако защитник сталкивается с фундаментальной асимметрией: не зная темы предвзятости, ни один метод обнаружения не может надежно выявить скрытую предвзятость, независимо от того, анализирует ли он сгенерированный текст, внутренние представления или веса модели. В этой работе мы представляем метод Distill to Detect (D2D), который выявляет скрытые предвзятости, дистиллируя смещение распределения между подозреваемой моделью и ее базой в картридж (адаптер префикса KV-кэша), концентрируя доминирующее расхождение и усиливая сигнал предвзятости в сгенерированном тексте. Мы показываем, что D2D успешно усиливает скрытые предвзятости скрытых моделей в такой степени, что они могут быть надежно выявлены по нескольким типам предвзятости. Мы также предлагаем теоретическую основу, которая объясняет эффективность D2D через призму проекции логит-распределения, взвешенного по Фишеру, поддерживаемую эмпирическими наблюдениями. Превращая узкое место в возможности адаптеров префиксной настройки в инструмент обнаружения, D2D предоставляет практическую основу для аудита скрытых поведений в развернутых языковых моделях.

Предварительная публикация без научного рецензирования.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектarXivpreprintEvidence 0

TiRex-2: Обобщение TiRex для многовариантных данных и потоковой передачи

Мы представляем TiRex-2, модель основанную на xLSTM для временных рядов, которая обобщает унивариантный TiRex на многовариантные прогнозы с учетом как прошлых, так и будущих ковариат. Прогнозирование в реальном мире по своей природе является последовательным: наблюдения поступают непрерывно, переменные развиваются совместно, а подмножество ковариат известно заранее. Существующие модели временных рядов основанные на трансформерах захватывают межвариантные зависимости, но имеют квадратичную сложность в зависимости от длины контекста и требуют перестройки полной истории при поступлении новых наблюдений. TiRex-2 решает эти ограничения благодаря рекуррентному дизайну, ориентированному на память, который работает с постоянными затратами на патч под потоковой передачей. Модель сочетает в себе двунаправленный временной смешиватель с асимметричным смешивателем внимания, позволяючи интегрировать известные заранее ковариаты, сохраняя строгую причинность для целевых переменных. Насколько нам известно, это первая модель временных рядов, которая достигает такого сочетания свойств. Для поддержки масштабируемого многовариантного предобучения мы предлагаем синтетический трубопровод связывания, который компонуёт разнообразные многовариантные пробы на лету из больших унивариантных корпусов. Эмпирически, TiRex-2 достигает лучших в своем классе нулевых показателей на GIFT-Eval и fev-bench, остается стабильной при потоковом использовании произвольной длины контекста и сохраняет постоянные затраты на вывод на патч. Модель использует 38,4 миллиона активных параметров в унивариантном режиме, с дополнительными 44,1 миллиона параметров, активируемых для многовариантного прогнозирования.

Предварительная публикация без научного рецензирования.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектarXivpreprintEvidence 0

Параллельные линейные оценки ошибок линейзации на GPU для робастного оптимального управления в реальном времени для нелинейной динамики и нейронных сетей

В данной статье рассматривается робастное оптимальное управление в реальном времени для неопределенных нелинейных систем, где линейные временные приближения (LTV) упрощают планирование, но требуют достоверных оценок ошибок линейзации (LEBs) для обеспечения соблюдения устойчивых ограничений. Мы разработали строгие, дифференцируемые оценки ошибок линейзации на GPU для LTV-аппроксимаций нелинейной динамики и динамики нейронных сетей (NN). Для аналитической динамики мы вводим оценки Гессиана на основе пути, которые являются более строгими, чем стандартные интервальные методы. Для динамики NN мы выводим сертифицированные LEB, используя аффинные релаксации, сгенерированные верификатором NN, и локальные коррекции Якобиана. Мы адаптировали парный LTV-составляющий решатель для робастного управления на уровне систем, чтобы он соответствовал этим LEB, расширив его на обработку правообратимых матриц возмущений и нецентрицированных наборов возмущений для строгого зонотопного распространения неопределенности. Наш метод, GPUSLS-LEO, позволяет онлайн-оптимизацию робастных обратных стратегий, учитывающих ошибку линейзации, обеспечивая надежные, формально проверенные достигнутые трубки. На комплексных нелинейных и NN динамиках с размерностями до 168 состояний наш метод может вычислять робастные стратегии управления на GPU со скоростью до 67 Гц, снижая время решения и консервативность по сравнению с базовыми решениями, сохраняя при этом формальные гарантии и производительность в реальном времени.

Предварительная публикация без научного рецензирования.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектarXivpreprintEvidence 0

Мир в движении: Генеративная динамическая гауссовская реконструкция из монокулярного видео

Мы представляем метод «Мир в движении», который позволяет создавать динамические 3D гауссовские представления из монокулярных видео, пригодные для произвольного рендеринга. Наш подход основывается на условной модели видео, которая использует плотные, пиксельно согласованные рендеры, кодирующие внешний вид, геометрию и движение 3D-сцены вдоль траекторий ввода и целевой камеры, чтобы исправить артефакты рендеринга и заполнить отсутствующие области исходной реконструкции. Для обучения этой модели мы создали набор данных, состоящий из выровненных пар многовидовых видео и динамических 3D гауссовских представлений, с имитированными артефактами, характерными для монокулярной реконструкции. На этапе тестирования мы извлекаем генерации модели, включая вновь наблюдаемые области и движения, обратно в единое согласованное, высококачественное динамическое 3D гауссовское представление, что улучшает как синтез новых видов, так и основное 3D движение. Наш метод устанавливает новый эталон в 4D реконструкции и беспесдно обобщается на видео с больших изменений ракурсов и динамическими движениями.

Предварительная публикация без научного рецензирования.

3 минДоказательность: низкаяЧитать далее
Искусственный интеллект
Искусственный интеллектarXivpreprintEvidence 0

Квантовое и кластическое машинное обучение: унифицированное эмпирическое сравнение

Квантовые вычисления стали многообещающей вычислительной парадигмой для машинного обучения (МЛ), с потенциалом предложить вычислительные преимущества по сравнению с классическими подходами. На данный момент доказательства, подтверждающие эффективность и преимущества квантовых моделей машинного обучения (QML) по отношению к классическим моделям, недостаточны. Чтобы заполнить этот пробел, в данной работе представлено эмпирическое исследование производительности моделей QML и их классических аналогов. Мы сравниваем семь пар моделей, охватывающих контролируемое обучение и обучение с подкреплением. Наши результаты показывают, что оцениваемые модели квантового машинного обучения пока не превосходят классические эталоны по общей точности прогнозирования, стабильности политики или времени обучения. Тем не менее, QML остается многообещающим подходом для фильтрации шума и контроля ложноположительных срабатываний. Результаты нашего исследования подводят итоги проблемам, с которыми сталкивается квантовое машинное обучение в различных аппаратных средах, эффективности обучения и стабильности сходимости, создавая основу для исследований по устойчивости и оптимизации параметров QML. Эта работа доступна по адресу https://github.com/Z-537-437/QML.

Предварительная публикация без научного рецензирования.

3 минДоказательность: низкаяЧитать далее