Искусственный интеллектarXivScience Morning3 мин чтенияpreprint

Автоматизированная замена фона для повышения устойчивости к ложным фонам

Automated Background Swapping for Robustness against Spurious Backgrounds

Рубрика
Искусственный интеллект
Источник
arXiv
Дата
30.06.2026
Автор
Science Morning
Время чтения
3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Искусственный интеллект

Аннотация

Классификаторы, основанные на глубоких нейронных сетях, демонстрируют высокую эффективность в различных областях, однако могут полностью провалиться, если они полагаются на ложные корреляции, то есть на признаки, которые предсказывают целевую метку в обучающих данных, но не имеют причинной связи и, следовательно, не обобщаются на новые данные. В области зрения многие из таких ложных корреляций проявляются в фоне изображения, где только объекты на переднем плане предсказывают класс метки. В данной статье мы представляем Автоматизированную замену фона (AutoBackSwap), чтобы снизить зависимость классификаторов от таких ложных фонов. AutoBackSwap использует вторичную сеть для разделения переднего плана и фона, после чего происходит заполнение для синтеза полных фонов, и, наконец, комбинируются различные передние планы и залитые фоны для увеличения обучающих данных. Мы выяснили, что разметка по участкам всего лишь нескольких сотен образцов достаточно, чтобы обучить вторичную сеть и автоматически увеличить полный набор обучающих данных для сложных задач классификации изображений. В отличие от многих предыдущих методов, AutoBackSwap оказывается очень эффективным, даже если в обучающих данных нет ни одного образца, разрушающего ложную корреляцию. В ряде задач классификации изображений с ложными фонами AutoBackSwap постоянно превосходит предыдущие методы.

Краткое резюме

Статья посвящена разработке метода Автоматизированной замены фона (AutoBackSwap), который позволяет уменьшить зависимость классификаторов на основе глубоких нейронных сетей от ложных корреляций, возникающих из-за фона изображения. Метод показывает высокую эффективность в задачах классификации изображений, позволяя повысить устойчивость к ошибкам, связанным с неверными ассоциациями между фоном и классами. AutoBackSwap требует лишь небольшого объёма размеченных данных для обучения, что делает его перспективным инструментом для улучшения классификации изображений.

Практический вывод

Метод AutoBackSwap позволяет значительно улучшить классификацию изображений в условиях, когда обучающие данные содержат ложные корреляции, благодаря возможности автоматической генерации фонов, при этом требуя минимальных затрат на разметку данных.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. Метод требует наличия хотя бы небольшой выборки размеченных данных для обучения вторичной сети, что может быть ограничением в ситуациях, когда доступные данные сильно ограничены. Кроме того, эффективность метода может варьироваться в зависимости от специфики данных и сложности задач классификации.

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Искусственный интеллект
Искусственный интеллект
95%

Эволюция сетевой структуры и механизмов, способствующих устойчивости производства продуктов питания в засушливых регионах: подход на основе машинного обучения.

Надежная система производства продуктов питания является краеугольным камнем обеспечения продовольственной безопасности. Интегрируя концептуальные значения устойчивости производства продуктов питания, данное исследование создает многомерную оценочную индексную систему, охватывающую устойчивость, восстановление и адаптивные способности. Используя панельные данные из Синьцзяна за период с 2010 по 2022 годы, исследование применяет интегрированную методологию, включая метод энтропийного веса, модифицированную гравитационную модель, анализ социальных сетей (SNA) и модель XGBoost-SHAP, для систематического анализа уровней устойчивости, характеристик структурной сети и основных механизмов, определяющих производство продуктов питания в регионе. Результаты показывают, что: с 2010 по 2022 годы уровень устойчивости производства продуктов питания в Синьцзяне демонстрировал непрерывный рост, характерный пространственной гетерогенностью с относительно узким разрывом. В течение исследуемого периода сетевое взаимодействие устойчивости производства продуктов питания в Синьцзяне становилось все более плотным; однако его характеризовало низкое сетевое плотность при топологии высокой кластеризации и коротком среднем пути. Наблюдались асимметричные особенности между регионами ввода и вывода, сопоставленные с уменьшением числа переноса между блоками. Площадь пашни на душу населения (X5), доступность транспортной инфраструктуры (X15), прогресс в сельскохозяйственных технологиях (X12) и среднегодовая температура (X1) заняли четыре первых места среди фактор влияния, при этом взаимодействие между площадью пашни на душу населения (X5) и доступностью транспортной инфраструктуры (X15) было наиболее значительным. Эти исследовательские выводы могут предоставить ценные ссылки для обеспечения продовольственной безопасности на уровне государства.

Искусственный интеллект
Искусственный интеллект
77%

Глубокое обучение для автоматизированного ультразвукового исследования бедер у младенцев: к надежной генерализации через спектр заболеваний и устройства.

В данном исследовании рассматривается применение методов глубокого обучения для автоматизации процесса ультразвукового исследования бедер у младенцев. Основное внимание уделяется достижению надежной генерализации модели на различных устройствах и в условиях различных заболеваний, что является критически важным для повышения точности диагностики.

Искусственный интеллект
Искусственный интеллект
74%

Обучение с подкреплением с метапознавательной обратной связью вызывает надежное выражение неопределенности в больших языковых моделях

Метапознание является критически важной составляющей интеллекта, описывающей способность контролировать и регулировать собственные когнитивные процессы. Тем не менее, большие языковые модели (LLMs) демонстрируют системные недостатки в ключевых метапознавательных функциях: они создают неправильные (галлюцинирующие) ответы с высокой уверенностью, не осознают границы своих знаний и неправильно представляют свою внутреннюю неопределенность, что подрывает доверие и надежность. Учитывая, что мониторинг производительности задач и адаптация поведения в соответствии с этим являются центральными для метапознания, мы предполагаем, что модели, способные точно оценивать свою собственную производительность, лучше подготовлены для ее улучшения. Мы реализуем эту идею через два новых механизма: обучение с подкреплением с метапознавательной обратной связью (RLMF) – парадигму, позволяющую улучшать ранжирование завершений во время оптимизации предпочтений на основе качества самосуждений модели о производительности, и выбор метапознавательных данных, который использует аналогичные самосуждения для выявления ценных обучающих примеров, превосходя наивное активное обучение. Мы применяем эти инновации к проблеме надежной калибровки (FC), которая сама по себе является принципиально метапознавательной задачей: цель заключается в согласовании выраженной и внутренней неопределенности, что сложно даже для передовых LLM. Мы принимаем декомпозированный подход в два этапа: сначала используем эти методы для калибровки надежности самооценок моделей, а затем отображаем на естественную, адаптируемую по контексту языковую неопределенность через целевое редактирование выходных данных. Обширные эксперименты показывают, что RLMF достигает обобщаемой, современной надежной калибровки на различных задачах при сохранении точности. Более того, RLMF превосходит стандартное обучение с подкреплением на 63%, при этом улучшая способность моделей оценивать и выражать собственные пределы возможностей. Это ставит RLMF в качестве многообещающей парадигмы для повышения метапознавательных способностей LLM с целью улучшения возможностей моделирования и соответствия, а также предполагает, что метапознавательная производительность является эффективным сигналом обучения с подкреплением для преодоления ограничений ранее используемых методов внутренней обратной связи.

Искусственный интеллект
Искусственный интеллект
72%

AutoMem: Автоматизированное изучение памяти как когнитивного навыка

Экспертиза в памяти является приобретенным навыком: знание того, что кодировать, когда извлекать и как организовывать знания — это способность, известная в когнитивной науке как метапамять. Мы применяем эту перспективу к большим языковым моделям (LLMs), рассматривая управление памятью как обучаемый навык. Мы придаем операциям файловой системы статус основных действий памяти наряду с действиями по выполнению задач, позволяя модели самостоятельно решать, как управлять своей памятью. Этот навык памяти улучшается по двум направлениям: структура, которая его поддерживает (подсказки, схемы файлов, словарь действий), и умение модели его применять. Оба направления устойчивы к ручной оптимизации: эпизоды в долгосрочных задачах выполняются на протяжении тысяч шагов, и одна ошибка в памяти может оставаться незамеченной на долгое время, что делает человеческий обзор полных траекторий непрактичным. Мы представляем AutoMem, фреймворк, который автоматизирует оба направления. В первом цикле сильная LLM просматривает полные траектории агента и итеративно пересматривает структуру памяти, которая определяет, как агент взаимодействует со своими файлами памяти. Во втором цикле хорошие решения агента по памяти идентифицируются из множества эпизодов и используются в качестве обучающего сигнала для прямого улучшения мастерства модели в управлении памятью. В трех процедурно сгенерированных долгосрочных играх (Crafter, MiniHack и NetHack) оптимизация памяти отдельно — без изменения поведения модели в действиях по выполнению задач — улучшила производительность базового агента примерно в 2-4 раза, позволив 32B модели с открытыми весами конкурировать с передовыми системами, такими как Claude Opus 4.5 и Gemini 3.1 Pro Thinking. Наши результаты показывают, что управление памятью является независимо обучаемым навыком и представляет собой цель с высоким потенциалом, обеспечивающую значительные улучшения в долгосрочных задачах.

Искусственный интеллект
Искусственный интеллект
69%

Адаптивное многоуровневое графовое представление с оптимизационно-ориентированным вниманием для надежной ассоциации ячеек в сетях V2X 5G.

Эффективная ассоциация ячеек остается фундаментальной задачей в системах пятого поколения (5G) «автомобиль-все» (V2X) из-за быстрых изменений топологии, гетерогенных развертываний и строгих требований к задержке. Конвенциональные подходы на основе обучения часто опираются на мелкие представления или независимые стратегии оптимизации, что ограничивает их адаптивность в густых и быстро меняющихся условиях. В данной работе предлагается структура многоуровневого графового представления, которая моделирует взаимодействия между автомобилями и базовыми станциями в иерархических пространственных структурах. Предложенный подход интегрирует контекстное встраивание узлов с графовым обучением, основанным на внимании, для выявления паттернов мобильности, характеристик сигналов и зависимостей нагрузки сети. Кроме того, в механизм обучения на стадии подготовки включен оптимизационный механизм для уточнения параметров внимания, что улучшает сходимость без увеличения сложности вывода. Структура была оценена на реальном наборе данных мобильности автомобилей, что продемонстрировало постоянные улучшения в стабильности ассоциации, надежности переключения и общей производительности сети по сравнению с существующими методами глубокого обучения и графами. Экспериментальные результаты показывают приросты точности (94,17%) и F1-меры (93,93%), что указывает на повышение устойчивости решений в динамических условиях. Хотя валидация проводилась на городском наборе данных, предложенная архитектура обеспечивает масштабируемую основу для адаптивного выбора ячеек в системах интеллектуального транспорта следующего поколения.

Искусственный интеллект
Искусственный интеллект
67%

FurnitureVLA: Обучение долгосрочной бимануальной сборке мебели с помощью модели видение-язык-действие

Текущие исследования в области роботизированной сборки мебели в основном сосредоточены на игрушечных масштабах или манипуляциях с одной рукой. Мы представляем FurnitureVLA, первое систематическое исследование бимануальной сборки мебели в реальном масштабе с использованием моделей видения-языка-действия (VLA). Мы формализуем задачу, разрабатываем масштабируемый симуляционный конвейер для генерации и оценки экспертных данных и создаем систему телеприсутствия в виртуальной реальности для управления бимануально одним оператором с целью сбора качественных демонстраций из реального мира. Чтобы справиться с экстремально долгосрочной сборкой, которая включает до 7 подсостояний и 1550 контрольных шагов, мы предлагаем улучшенную модель VLA, донастроенную на семантически обоснованные подсостояния, которая совместно предсказывает действия и непрерывный сигнал прогресса, позволяя автоматически переходить между подсостояниями и снижая накопление ошибок во время вывода. Мы также исследуем факторы проектирования восприятия и управления, которые критически влияют на точность в сборке в реальном масштабе. FurnitureVLA улучшает средний уровень успеха симуляции с 48% до 80% по сравнению с базовыми показателями для трех типов мебели, с дополнительным приростом в 21% благодаря изучению факторов проектирования. Мы валидируем на реальной платформе Kinova Gen3 с только 16% снижением на наиболее сложной задаче.