Искусственный интеллектarXivScience Morning3 мин чтенияpreprint
Осязание и восприятие данных: Повторно используемый программный конвейер для тактильных статистических графиков в доступном образовании
Touching and Feeling the Data: A Reusable Software Pipeline for Tactile Statistical Graphs in Accessible Education
Карточка статьи
Рубрика
Искусственный интеллект
Источник
arXiv
Дата
01.07.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Аннотация
Статистическая визуализация обычно рассматривается как визуальный носитель, но данные также можно воспринимать на ощупь. Трехмерные тактильные графики позволяют студентам с нарушениями зрения ощущать распределения, отслеживать тенденции и исследовать взаимосвязи через прямое тактильное взаимодействие. Однако использование таких графиков в классе остается ограниченным, поскольку создание каждого графика в CAD-программном обеспечении требует специализированных навыков и часов ручной работы. Мы рассматриваем эту проблему как программную через трехуровневый повторно используемый конвейер, состоящий из около 1500 строк JavaScript. Первый уровень автоматически извлекает параметры тактильного дизайна на основе размеров пластины с использованием исследований в области тактильного восприятия. Второй уровень предоставляет общую структуру графиков и пять модульных средств для построения разбросов, столбчатых диаграмм, гистограмм, линейных графиков и бокспотов. Необязательный третий уровень использует мультимодельную языковую модель для извлечения структурированных спецификаций графиков из загруженных изображений, с обязательной проверкой со стороны учителя перед созданием печатной версии. Конвейер генерирует готовые для печати двоичные файлы на языке стандартной тесселяции за менее чем 250 миллисекунд. Мы представляем дизайн, производительность и ограничения.
Краткое резюме
Исследование предлагает повторно используемый программный конвейер для создания тактильных статистических графиков, что позволяет студентам с нарушениями зрения взаимодействовать с данными через осязание. Конвейер упрощает процесс создания графиков, сокращая время и требуемые навыки.
Практический вывод
Реализация программного конвейера поможет сделать статистическую визуализацию более доступной для студентов с нарушениями зрения, позволяя им более эффективно изучать и понимать данные.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Исследование ограничено необходимостью проверки со стороны учителей перед печатью графиков и потенциальными ошибками в извлечении спецификаций из загруженных изображений.
Лесные характеристики имеют ключевое значение для мониторинга ресурсов на национальном уровне. Метрики воздушного LiDAR являются одними из дополнительных переменных, наиболее сильно коррелирующих с лесными характеристиками, используемыми для оценки в Национальном лесном инвентаре (NFI). Однако создание предсказаний на всей территории остается сложной задачей, когда данные LiDAR собираются в гетерогенных условиях. С расширением национальных программ LiDAR в Европе изменчивость датчиков, параметров полета, сезонов и углов сканирования ограничивает надежность существующих моделей, которые часто откалиброваны для местных условий. Мы представляем FLORA (Регрессия лесного LiDAR на основе октодерева с использованием вспомогательных данных), фреймворк глубокого обучения, который предсказывает шесть лесных показателей: доминирующую высоту, общий объем, объем лиственных древесных пород, объем хвойных древесных пород, базальную площадь и плотность стволов на основе гетерогенных точечных облаков LiDAR. FLORA объединяет основу на основе октодерева с экологическими и спатиально-временными вспомогательными переменными с помощью механизма поздней фузии. Модели обучаются и оцениваются на 32,052 участках Национального лесного инвентаря по материковой Франции с использованием данных из программы LiDAR HD во Франции. Одна модель, обученная как на лиственном, так и на безлистном захвате, превосходит модели, специфичные для сезона, и улучшает надежность по сезонам. Вспомогательные переменные обеспечивают скромные общие приросты, но в большей степени способствуют предсказанию объема по видам. FLORA достигает значения rRMSE около 12,3% (R2 = 0,88) для доминирующей высоты и 39% (R2 = 0,74) для общего объема, предоставляя надежную основу для оценки лесных характеристик в крупных масштабах на основе гетерогенных национальных программ LiDAR.
Хотя большие языковые модели (БЯМ) хорошо справляются с задачами, связанными с таблицами, они все же совершают ошибки при ссылках на данные (ЭСД), то есть неправильно цитируют или опускают значения из таблиц, несмотря на понимание их структуры. Кроме того, что ошибки при ссылках на данные влияют на точность финальных ответов, они прямо ставят под сомнение корректность и надежность промежуточных шагов рассуждения. Однако предыдущие исследования предлагали лишь ограниченные и мелкомасштабные анализы. В данной работе мы представляем первую систематическую оценку ошибок ссылок на табличные данные в различных моделях и задачах. Наши результаты показывают, что ЭСД встречаются во всех протестированных моделях (от 1.7 до 20 миллиардов параметров). Кроме того, мы демонстрируем, что внедрение ссылок на данные в качестве критика значительно улучшает точность ответов на 12.0% с помощью фильтрации на основе критика и выборки для отклонения. В заключение, мы обучили легкую модель критика с 4 миллиардами параметров, которая достигает средней F1 оценки 78.2% в обнаружении как внутрираспределенных, так и внераспределенных ЭСД и эффективно способствует выводу для более крупных моделей.
Болезнь Хантингтона (БХ) имеет гетерогенное нейродегенеративное течение, при котором моторные, когнитивные и функциональные симптомы развиваются по-разному у различных людей. Такое нетипичное течение осложняет определение дискретных стадий болезни, что затрудняет понимание траекторий заболевания, timely pa- tient care и разработку терапии. В результате существующие клинические системы стадирования в значительной степени полагаются на критерии, определяемые клиницистами, специфичные для области, и фиксированные границы клинического измерения для назначения стадии, что снижает объективность и часто приводит к перекрытию клинических измерений между стадиями. Хотя методы машинного обучения могут помочь, существующие подходы не могут полностью уловить сложные временные зависимости внутри и между пациентами. Мы предлагаем URL-STFN, модель динамического представления графов, которая кодирует как меж-, так и внутри-пациентные временные паттерны на основе долгосрочных клинических измерений. Затем мы оцениваем стадии заболевания, образованные через кластеризацию и анализ стабильности латентных представлений URL-STFN, и сравниваем их с представлениями, полученными с помощью традиционных методов эмбеддинга. Мы также проводим бенчмаркинг этих стадий, основанных на кластеризации, по сравнению с состояниями, полученными из традиционных временных моделей, включая DHMM. Мы предполагаем, что кластеризация латентных представлений URL-STFN позволяет идентифицировать стадии БХ с уменьшением перекрытия клинических измерений. Предложенная структура оценивается с использованием 1,477 клинических визитов из набора данных Enroll-HD, крупной продольной когорты с повторными клиническими оценками. Для стадирования мы использовали 44 клинических измерения, охватывающих моторную, когнитивную и функциональную области. URL-STFN определяет клинически значимые стадии БХ, которые соответствуют установленному прогрессированию заболевания, одновременно уменьшая перекрытие значений клинических признаков по сравнению с подходами, основанными на DHMM, и клиническими стадиями. Эти выводы подчеркивают потенциал модели обучения представления на основе динамических графов и фреймворка кластеризации для поддержки более объективного, основанного на данных и точного стадирования БХ.
Бенчмаркинг является необходимым для оценки возможностей больших языковых моделей (БЯМ). Однако существующие мультидисциплинарные бенчмарки не имеют специализированных ресурсов для традиционной китайской оперы, области, насыщенной культурной и визуальной сложностью. Для устранения этого пробела мы представляем TCO-Dataset, двуязычный мультидисциплинарный датасет, предназначенный для оценки способности БЯМ интерпретировать и делать выводы на основе изображений китайской оперы. Датасет содержит 1000 вопросов с множественным выбором, paired with высококачественными изображениями из восьми основных жанров оперы. Каждый образец включает тщательно отобранное изображение, соответствующий вопрос, сосредоточенный на культурном и визуальном понимании, и аннотированный ответ для оценки. Датасет поддерживает как китайский, так и английский языки, что позволяет проводить оценку моделей в разных языках. Все элементы были проверены через несколько раундов экспертной валидации для обеспечения согласованности и точности. TCO-Dataset поддерживает разнообразные приложения, включая визуально-культурное рассуждение на основе неподвижных изображений, сохранение культурного наследия и развитие ИИ в специфических областях. Начальные оценки показывают значительные вариации в производительности разных моделей, подчеркивая сложность и ценность датасета для продвижения мультидисциплинарного понимания.
Классификаторы, основанные на глубоких нейронных сетях, демонстрируют высокую эффективность в различных областях, однако могут полностью провалиться, если они полагаются на ложные корреляции, то есть на признаки, которые предсказывают целевую метку в обучающих данных, но не имеют причинной связи и, следовательно, не обобщаются на новые данные. В области зрения многие из таких ложных корреляций проявляются в фоне изображения, где только объекты на переднем плане предсказывают класс метки. В данной статье мы представляем Автоматизированную замену фона (AutoBackSwap), чтобы снизить зависимость классификаторов от таких ложных фонов. AutoBackSwap использует вторичную сеть для разделения переднего плана и фона, после чего происходит заполнение для синтеза полных фонов, и, наконец, комбинируются различные передние планы и залитые фоны для увеличения обучающих данных. Мы выяснили, что разметка по участкам всего лишь нескольких сотен образцов достаточно, чтобы обучить вторичную сеть и автоматически увеличить полный набор обучающих данных для сложных задач классификации изображений. В отличие от многих предыдущих методов, AutoBackSwap оказывается очень эффективным, даже если в обучающих данных нет ни одного образца, разрушающего ложную корреляцию. В ряде задач классификации изображений с ложными фонами AutoBackSwap постоянно превосходит предыдущие методы.
Текущие исследования в области роботизированной сборки мебели в основном сосредоточены на игрушечных масштабах или манипуляциях с одной рукой. Мы представляем FurnitureVLA, первое систематическое исследование бимануальной сборки мебели в реальном масштабе с использованием моделей видения-языка-действия (VLA). Мы формализуем задачу, разрабатываем масштабируемый симуляционный конвейер для генерации и оценки экспертных данных и создаем систему телеприсутствия в виртуальной реальности для управления бимануально одним оператором с целью сбора качественных демонстраций из реального мира. Чтобы справиться с экстремально долгосрочной сборкой, которая включает до 7 подсостояний и 1550 контрольных шагов, мы предлагаем улучшенную модель VLA, донастроенную на семантически обоснованные подсостояния, которая совместно предсказывает действия и непрерывный сигнал прогресса, позволяя автоматически переходить между подсостояниями и снижая накопление ошибок во время вывода. Мы также исследуем факторы проектирования восприятия и управления, которые критически влияют на точность в сборке в реальном масштабе. FurnitureVLA улучшает средний уровень успеха симуляции с 48% до 80% по сравнению с базовыми показателями для трех типов мебели, с дополнительным приростом в 21% благодаря изучению факторов проектирования. Мы валидируем на реальной платформе Kinova Gen3 с только 16% снижением на наиболее сложной задаче.