Искусственный интеллектarXivScience Morning3 мин чтенияpreprint
Оценка методов инициализации популяции для символьной регрессии на основе генетического программирования
Evaluation of Population Initialization Methods for Genetic Programming-based Symbolic Regression
Карточка статьи
Рубрика
Искусственный интеллект
Источник
arXiv
Дата
30.06.2026
Автор
Science Morning
Время чтения
3 мин
Это предварительная публикация, она не прошла научное рецензирование.
Аннотация
Мы анализируем влияние оптимизации начальной популяции генетического программирования (ГП) для символьной регрессии (СР) на точность и сложность решений. Мы сравниваем три хорошо известные методы случайной инициализации, а также инициализацию с небольшими оптимизированными решениями из исчерпывающей символьной регрессии (ИСР), используя реализацию ГП/СР, основанную на многокритериальном эволюционном алгоритме NSGA-II. Мы сравниваем конечные парето-фронты, найденные с помощью каждого метода инициализации, на двенадцати синтетических задачах различной сложности и одной реальной выборке. Мы не обнаружили значительных различий в точности или сложности моделей среди методов инициализации. Начальное преимущество инициализации с использованием ИСР исчезает всего через несколько поколений. Наши результаты показывают, что при сходной диверсификации в начальной популяции влияние метода инициализации в символьной регрессии на основе ГП на конечный парето-фронт представляет собой незначительный фактор.
Краткое резюме
Исследование показало, что влияние методов инициализации популяции в генетическом программировании для символьной регрессии не имеет значительного эффекта на точность и сложность получаемых решений. Начальное преимущество более сложной инициализации быстро исчезает.
Практический вывод
В практическом применении методы инициализации популяции не оказывают заметного влияния на результаты символьной регрессии, что позволяет использовать более простые методы без ущерба для качества решений.
Ограничения
Это предварительная публикация, она не прошла научное рецензирование. Ограничения исследования заключаются в том, что методы были протестированы только на ограниченном наборе синтетических и реальных задач, поэтому результаты могут не обобщаться на другие типы задач или контексты.
Агенты LLM все чаще действуют на длинных горизонтах, где одна траектория может содержать сотни или тысячи действий. В таких случаях награды, основанные только на результатах, предоставляют слишком скудные сигналы, не информируя модель о качестве промежуточных действий. Методы плотного контроля旨енты к решению этой проблемы путем оценки промежуточных шагов, начиная от внутренней уверенности и заканчивая самодистилляцией и сходством вложений. Однако обычно эти методы оцениваются путем измерения последующей производительности тренировочного процесса, который интегрирует их. Это дорого, смешивает качество контроля с инженерными факторами обучения и делает различные методологические группы несравнимыми из-за необходимости различных настроек обучения. В результате методы плотного контроля редко проверяются на общем основании. Мы представляем QVal, тестовую платформу без необходимости в обучении для прямой оценки сигналов плотного контроля. Учитывая пару состояние-действие, QVal измеряет, насколько хорошо оценка метода соответствует Q: упорядочивает ли она действия согласно Q-значениям сильной эталонной политики. Это позволяет нам сравнивать сигналы еще до любого запуска обучения и отделять качество сигнала от других инженерных решений. Мы внедрили QVal в виде QVal-v1.0, оценив 21 метод плотного контроля в четырех различных средах и семи методологических группах, проведя более 1,2 тысячи экспериментов по оценке на шести основных моделях с открытыми весами. Мы обнаружили, что простые базовые подходы к подсказкам постоянно превосходят современные методы плотного контроля из литературы, и что производительность сильно кластеризуется по семействам. Эти результаты подтверждаются на различных размерах моделей, средах и модальностях наблюдения. QVal разработан с учетом простоты расширения для новых сред и методов, что позволяет исследователям дорабатывать методы плотного контроля до любого запуска обучения.
Болезнь Альцгеймера (БА) — это дегенеративное неврологическое заболевание, характеризующееся потерей памяти, ухудшением когнитивных функций и уменьшением объема мозговой ткани. Обнаружить его на ранней стадии сложно из-за вариаций в прогрессировании заболевания и ограниченных возможностей методов нейровизуализации с единственной модальностью. Диагностика болезни Альцгеймера на основе магнитно-резонансной томографии (МРТ) предоставляет дополнительные структурные и функциональные данные, однако существующие методы глубокого обучения часто сталкиваются с проблемами несбалансированности данных, высокой вычислительной сложности и ограниченной обобщаемостью. Для устранения этих пробелов разработана структура извлечения признаков из МРТ на основе EfficientNet для классификации стадий болезни Альцгеймера. EfficientNet, оснащенный комбинированным масштабированием, слоями с разделением по глубине и компонентами сжатием и возбуждением, позволяет точно охарактеризовать корковые структуры и вариации во всем мозге, сохраняя при этом вычислительную эффективность. Извлеченные признаки классифицируются с помощью сети свёрточной многомасштабной внимательной сети на основе сжатия (C-MSACCN), которая объединяет механизмы внимания и стратегии сжатия для повышения точности и снижения сложности модели. Более того, улучшенный оптимизатор соседей клеток (ICNO) тонко настраивает гиперпараметры, находя баланс между исследованием и эксплуатацией для оптимального сходимости и устойчивости. С точностью 99,9%, точностью, полнотой и F1-мерой на наборах данных модель превосходит предыдущие работы. Валидация подтверждает согласованность, а методы визуализации выделяют области, связанные с заболеванием, для предоставления клинической информации.
Поэзия конденсирует язык в минимальные формы, вызывая эмоции, визуальные образы и эстетические суждения, однако нейронная основа таких оценок остается плохо изученной. Мы исследовали, как мозг оценивает две структурно сопоставленные, но тематически разные поэтические формы: хайку на тему природы и сенрю на тему эмоций. Участники читали стихи и оценивали их по пяти критериям - эстетическая привлекательность, яркость образов, эмоциональная вовлеченность, оригинальность и креативность - в то время как записывалась ЭЭГ. Используя многоклассовые модели градиентного бустинга с SHapley Additive exPlanations, мы предсказали оценочные рейтинги на основе осцилляторных нейронных характеристик в разных временных окнах и областях скальпа. Модели показали лучшие результаты по сравнению с линейными базовыми моделями и имели ограниченную обобщаемость между темами, указывая на контентно-специфическое нейронное кодирование. Обнаружились различия в процессах обработки: сенрю продемонстрировала более сильные вкладки в бета-диапазон, в то время как хайку задействовало более распределенные многочастотные динамики. Временные профили также различались, при этом хайку показывало устойчивое вовлечение на этапах чтения и размышления, а сенрю демонстрировала более раннюю оценку во время чтения. Предшествующая нейронная активность способствовала предсказанию последующих оценок, что предполагает роль предвосхищающего состояния мозга в эстетической оценке. По всем стихотворениям оценочные измерения сходились на доминирующей общей оси, которая надежно предсказывалась на основе нейронных характеристик. В совокупности эти результаты указывают на то, что эстетическая оценка поэзии отражает взаимодействие между предвосхищающими нейронными состояниями, контентно-специфической осцилляторной динамикой и процессами, специфичными для измерений, организованными вокруг общей оценочной оси. Эта работа устанавливает поэзию как удобную модельную систему для изучения того, как мозг конструирует смысл и ценность из минимального языкового ввода.
Аутизм и расстройства спектра аутизма (РАС) затрагивают десятки миллионов семей по всему миру, однако родители сталкиваются с обилием, но ненадёжными онлайн-советами и ограниченным доступом к своевременному, сочувственному руководству. Чтобы заполнить этот критический пробел, мы разработали Starmate (http://kefeng.mpu.edu.mo/starmate) — ИИ-ассистент с 1,5 миллиарда параметров, адаптированный для опекунов людей с РАС, используя строгую ориентированную на пользователя смешанную методологию. На основе углублённых интервью и опроса Kano, который выявил «практическое руководство» как необходимое требование для опекунов, мы сконструировали новую модульную архитектуру, интегрирующую анализ настроений, извлечение знаний на основе графов, проверенное экспертами (LightRAG), и модель Qwen2.5-1.5B, специально подстроенную под нашу домен. В слепом сравнении с ведущими коммерческими крупными языковыми моделями, Starmate показал улучшенные результаты по ключевым метрикам в рамках данной оценки (86.76 против 78.43-83.84) и продемонстрировал конкретные преимущества в области эмпатии, практического руководства и логической ясности. Автоматизированное бенчмаркинг также подтвердило эти результаты, с высокими оценками по профессиональной точности (86.18), эмпатии (86.79) и практическому руководству (82.58). Эти результаты демонстрируют техническую возможность легковесной, ориентированной на конфиденциальность, специализированной крупной языковой модели для генерации точных, эмпатичных и действенных ответов в бенчмаркинговых сценариях, создавая основу для будущей реальной пригодности и клинического тестирования.
С развитием технологий пациенты все чаще ищут медицинскую информацию в интернете, и чат-боты на базе искусственного интеллекта (ИИ), такие как NIPRGPT — наиболее доступный инструмент ИИ для пользователей компьютеров Министерства обороны США — предлагают новый ресурс для ответов на вопросы о фемороацетабулярном импинджменте (ФАИ). На данный момент не проводилось исследований, оценивающих ответы NIPRGPT на ортопедические медицинские вопросы. Основная цель данного исследования заключалась в оценке точности, полноты и читаемости ответов NIPRGPT на распространенные вопросы о ФАИ. Были выбраны двенадцать часто задаваемых вопросов (ЧЗВ) о ФАИ из подготовленного списка и заданы NIPRGPT. Точность и достаточность ответов оценивались панелью сертифицированных хирургов по четырем критериям: отлично (без необходимости в уточнениях), удовлетворительно (необходимы минимальные уточнения), удовлетворительно (необходимы умеренные уточнения) и неудовлетворительно (необходимы существенные уточнения). Кроме того, была оценена читаемость с использованием коэффициента читаемости Флеш-Кинкейда. Из 12 ответов четыре (33,3%) были оценены как отличные, не требующие уточнения, семь (58,3%) — как удовлетворительные, требующие минимальных уточнений, и один (8,3%) — как удовлетворительный, требующий умеренных уточнений. Не было неудовлетворительных ответов. Средняя оценка качества составила 3,38 из 4,0. Однако средний коэффициент читаемости Флеш-Кинкейда составил 19,6, что соответствует уровню читаемости для лиц с послевузовским или специализированным академическим образованием. Согласованность оценок между наблюдателями была низкой, с альфа-коэффициентом Криппендорфа 0,046. NIPRGPT предоставляет ответы на ЧЗВ о ФАИ, которые в целом являются точными и надежными. Однако сложность ответов значительно превышает рекомендуемый уровень читаемости для образовательных материалов для пациентов. Хотя это может быть полезным дополнением в условиях военной медицины, где доступ к информации может быть ограничен, врачам следует учитывать высокие требования к грамотности, которые налагаются на пациентов, использующих этот инструмент.
Формирование случаев (ФС) является ключевым навыком для терапевтов; однако создание качественных ФС требует значительного времени. Данное исследование направлено на демонстрацию того, что использование графа знаний на основе мета-аналитической литературы может повысить качество ФС. Были сформированы пять групп, включая 4 группы больших языковых моделей и 1 группу профессионалов, каждая из которых создала 25 ФС на основе 25 ситуаций. Контрольная группа с Claude (Sonnet 3.7; Anthropic) создала 25 ФС. Группа персонализации служила контрольной группой с дополнительными подсказками о персонализации. Группа графа знаний использовала большую языковую модель, которая сгенерировала 25 ФС, предоставленную с графом знаний по мета-анализу. Далее дополнительная персонализация составила группу графа знаний с персонализацией. Наконец, экспертная группа состояла из 25 ФС, созданных человеком-экспертом. Эти 125 ФС в общей сложности были оценены на общую качество (т.е. правильность, полнота, осуществимость и согласованность) с использованием 7-балльной шкалы и 18 основных элементов с бинарными оценками (0 или 1) другим экспертом. ФС также были качественно проанализированы. Группы графа знаний и графа знаний с персонализацией набрали значительно более высокие баллы, чем контрольная группа по таким показателям, как правильность, полнота и осуществимость. Экспертная группа значительно лучше набрала баллы за согласованность, чем группы сгенерированные машинами. Кроме того, не было значительных различий в оценках осуществимости среди групп графов знаний, графов знаний с персонализацией и экспертной группы. Качественная оценка показала, что ФС, созданные человеком, сужают текст до содержания, легко воспринимаемого клиентом, в то время как ФС, созданные машинами, более склонны включать выражения, которые неестественны для клиента. Эти результаты указывают на то, что предоставление графов знаний начинающим терапевтам увеличивает правильность, полноту и осуществимость ФС. Предоставление опытным терапевтам графов знаний также рекомендуется для улучшения качества их ФС и услуг в области психического здоровья.