Искусственный интеллектbioRxivScience Morning3 мин чтенияpreprint

Сложность на уровне генов объясняет вариации в распределении эффектов на фитнес по всему геному

Gene-level complexity explains genome-wide variation in the distribution of fitness effects

Рубрика
Искусственный интеллект
Источник
bioRxiv
DOI
10.64898/2026.04.08.717178
Дата
29.06.2026
Автор
Science Morning
Время чтения
3 мин

Это предварительная публикация, она не прошла научное рецензирование.

Искусственный интеллект

Краткое резюме

Исследование выявило, что генетическая сложность на уровне генов более точно объясняет вариации в распределении эффектов на фитнес (DFE), чем организационная сложность отдельных видов. Отметив, что консервация, структура генов и экспрессия играют важную роль в предсказании селективных ограничений, авторы показали, что высококоннектированные и активно экспрессируемые гены испытывают более выраженные негативные эффекты. Влияние сложных свойств генов на адаптацию также варьировалось между видами и по геному, что подчеркивает разнообразие в эволюционных процессах.

Практический вывод

Результаты исследования подчеркивают важность анализа генетической сложности на уровне генов для лучшего понимания эволюционных механизмов и адаптации популяций.

Ограничения

Это предварительная публикация, она не прошла научное рецензирование. Одним из ограничений исследования является то, что данные были извлечены только из трех видов, что может ограничивать обобщаемость выводов на другие организмы. Кроме того, модель не учитывает все возможные факторы, влияющие на селективные ограничения и адаптацию.

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Искусственный интеллект
Искусственный интеллект
87%

Адаптивное многоуровневое графовое представление с оптимизационно-ориентированным вниманием для надежной ассоциации ячеек в сетях V2X 5G.

Эффективная ассоциация ячеек остается фундаментальной задачей в системах пятого поколения (5G) «автомобиль-все» (V2X) из-за быстрых изменений топологии, гетерогенных развертываний и строгих требований к задержке. Конвенциональные подходы на основе обучения часто опираются на мелкие представления или независимые стратегии оптимизации, что ограничивает их адаптивность в густых и быстро меняющихся условиях. В данной работе предлагается структура многоуровневого графового представления, которая моделирует взаимодействия между автомобилями и базовыми станциями в иерархических пространственных структурах. Предложенный подход интегрирует контекстное встраивание узлов с графовым обучением, основанным на внимании, для выявления паттернов мобильности, характеристик сигналов и зависимостей нагрузки сети. Кроме того, в механизм обучения на стадии подготовки включен оптимизационный механизм для уточнения параметров внимания, что улучшает сходимость без увеличения сложности вывода. Структура была оценена на реальном наборе данных мобильности автомобилей, что продемонстрировало постоянные улучшения в стабильности ассоциации, надежности переключения и общей производительности сети по сравнению с существующими методами глубокого обучения и графами. Экспериментальные результаты показывают приросты точности (94,17%) и F1-меры (93,93%), что указывает на повышение устойчивости решений в динамических условиях. Хотя валидация проводилась на городском наборе данных, предложенная архитектура обеспечивает масштабируемую основу для адаптивного выбора ячеек в системах интеллектуального транспорта следующего поколения.

Искусственный интеллект
Искусственный интеллект
87%

Оценка методов инициализации популяции для символьной регрессии на основе генетического программирования

Мы анализируем влияние оптимизации начальной популяции генетического программирования (ГП) для символьной регрессии (СР) на точность и сложность решений. Мы сравниваем три хорошо известные методы случайной инициализации, а также инициализацию с небольшими оптимизированными решениями из исчерпывающей символьной регрессии (ИСР), используя реализацию ГП/СР, основанную на многокритериальном эволюционном алгоритме NSGA-II. Мы сравниваем конечные парето-фронты, найденные с помощью каждого метода инициализации, на двенадцати синтетических задачах различной сложности и одной реальной выборке. Мы не обнаружили значительных различий в точности или сложности моделей среди методов инициализации. Начальное преимущество инициализации с использованием ИСР исчезает всего через несколько поколений. Наши результаты показывают, что при сходной диверсификации в начальной популяции влияние метода инициализации в символьной регрессии на основе ГП на конечный парето-фронт представляет собой незначительный фактор.

Искусственный интеллект
Искусственный интеллект
87%

Декодирование регуляторной генетической архитектуры эндометриоза с использованием AlphaGenome

Фоновая информация: Эндометриоз — это сложное заболевание, зависящее от эстрогенов, и обладающее значительным генетическим компонентом. Хотя геномные ассоциативные исследования (GWAS) выявили множество локусов предрасположенности, большинство связанных вариантов находится в некодирующих регионах, что ограничивает биологическую интерпретацию и идентификацию причинных генов. Приоритизация генов в GWAS также ограничена неполным охватом аннотации, специфичной для тканей (например, GTEx, ENCODE, детальная маршрутизация, менделевская рандомизация и методы на основе сетей). Мы применили искусственный интеллект AlphaGenome для приоритизации вариантов, ассоциированных с эндометриозом, на основе предсказанных регуляторных эффектов, специфичных для матки. Методы: Мы проанализировали 10 000 ассоциированных с эндометриозом однонуклеотидных полиморфизмов (SNP), идентифицированных в ранее опубликованных GWAS под руководством Рахмиоглу и др., используя AlphaGenome для различных типов геномных выходов. Предсказания, специфичные для матки с высоконадежными эффектами (квантильный балл ≥ 0.90), были сгруппированы по основным регуляторным модальностям. SNP, приоритизированные AlphaGenome в пределах ±500 кБ от известных локусов GWAS, были классифицированы по уровням на основе числа поддерживаемых регуляторных модальностей; более широкий уровень поддержки указывает на более сильные многослойные регуляторные доказательства. Также была оценена частота аллеля эффекта, связанное равновесие (LD) и перекрытие с ранее опубликованными вариантами, ассоциированными с эндометриозом. Результаты: AlphaGenome сгенерировал специфичные для матки 147 033 высоконадежных сигнала по 10 000 вариантов, ассоциированных с эндометриозом, охватывающих шесть регуляторных модальностей, включая экспрессию генов, активность промоторов, доступность хроматина, связывание транскрипционных факторов, модификацию гистонов и сплайсинг РНК. В рамках 42 установленных локусов GWAS по эндометриозу AlphaGenome идентифицировал 42 альтернативных подпороговых SNP с более сильными предсказанными регуляторными эффектами, специфичными для матки, чем опубликованные ведущие варианты GWAS. Девятнадцать SNP, приоритизированных AlphaGenome, были классифицированы как уровень 1, показывая поддержку по всем шести регуляторным модальностям, в то время как среди пяти ведущих SNP GWAS такая поддержка наблюдалась только у пяти. Анализ связанного равновесия выявил восемь SNP уровня 1 с низким и слабым LD (r² < 0.5) относительно соответствующих ведущих вариантов GWAS, регулируя большинство генов, вовлеченных в пролиферацию, опосредованную эстрогенами, и воспалительную сигнализацию, подчеркивая их потенциальную значимость для патогенеза эндометриоза. Кроме того, мы идентифицировали 167 значительных SNP по всему геному вне 42 опубликованных локусов ведущих SNP GWAS, включая шесть SNP уровня 1 (rs1482061, rs7772579, rs6557140, rs2982571, rs12631337 и rs79626929), охватывающих гены рядом с ESR1/6q25.1, что подтверждает биологическую значимость для патогенеза эндометриоза. Заключения: На основе регуляторной приоритизации AlphaGenome были уточнены локусы геномного ассоциированного исследования, ассоциированные с эндометриозом, путем идентификации вариантов с более сильной предсказанной функциональной значимостью, специфичной для матки. Эти результаты предоставляют регуляторную основу для приоритизации кандидатных вариантов и генов для дальнейшей функциональной валидации в эндометриозе.

Искусственный интеллект
Искусственный интеллект
85%

FLORA: Подход глубокого обучения для предсказания лесных показателей на основе гетерогенных данных LiDAR

Лесные характеристики имеют ключевое значение для мониторинга ресурсов на национальном уровне. Метрики воздушного LiDAR являются одними из дополнительных переменных, наиболее сильно коррелирующих с лесными характеристиками, используемыми для оценки в Национальном лесном инвентаре (NFI). Однако создание предсказаний на всей территории остается сложной задачей, когда данные LiDAR собираются в гетерогенных условиях. С расширением национальных программ LiDAR в Европе изменчивость датчиков, параметров полета, сезонов и углов сканирования ограничивает надежность существующих моделей, которые часто откалиброваны для местных условий. Мы представляем FLORA (Регрессия лесного LiDAR на основе октодерева с использованием вспомогательных данных), фреймворк глубокого обучения, который предсказывает шесть лесных показателей: доминирующую высоту, общий объем, объем лиственных древесных пород, объем хвойных древесных пород, базальную площадь и плотность стволов на основе гетерогенных точечных облаков LiDAR. FLORA объединяет основу на основе октодерева с экологическими и спатиально-временными вспомогательными переменными с помощью механизма поздней фузии. Модели обучаются и оцениваются на 32,052 участках Национального лесного инвентаря по материковой Франции с использованием данных из программы LiDAR HD во Франции. Одна модель, обученная как на лиственном, так и на безлистном захвате, превосходит модели, специфичные для сезона, и улучшает надежность по сезонам. Вспомогательные переменные обеспечивают скромные общие приросты, но в большей степени способствуют предсказанию объема по видам. FLORA достигает значения rRMSE около 12,3% (R2 = 0,88) для доминирующей высоты и 39% (R2 = 0,74) для общего объема, предоставляя надежную основу для оценки лесных характеристик в крупных масштабах на основе гетерогенных национальных программ LiDAR.

Искусственный интеллект
Искусственный интеллект
77%

TiRex-2: Обобщение TiRex для многовариантных данных и потоковой передачи

Мы представляем TiRex-2, модель основанную на xLSTM для временных рядов, которая обобщает унивариантный TiRex на многовариантные прогнозы с учетом как прошлых, так и будущих ковариат. Прогнозирование в реальном мире по своей природе является последовательным: наблюдения поступают непрерывно, переменные развиваются совместно, а подмножество ковариат известно заранее. Существующие модели временных рядов основанные на трансформерах захватывают межвариантные зависимости, но имеют квадратичную сложность в зависимости от длины контекста и требуют перестройки полной истории при поступлении новых наблюдений. TiRex-2 решает эти ограничения благодаря рекуррентному дизайну, ориентированному на память, который работает с постоянными затратами на патч под потоковой передачей. Модель сочетает в себе двунаправленный временной смешиватель с асимметричным смешивателем внимания, позволяючи интегрировать известные заранее ковариаты, сохраняя строгую причинность для целевых переменных. Насколько нам известно, это первая модель временных рядов, которая достигает такого сочетания свойств. Для поддержки масштабируемого многовариантного предобучения мы предлагаем синтетический трубопровод связывания, который компонуёт разнообразные многовариантные пробы на лету из больших унивариантных корпусов. Эмпирически, TiRex-2 достигает лучших в своем классе нулевых показателей на GIFT-Eval и fev-bench, остается стабильной при потоковом использовании произвольной длины контекста и сохраняет постоянные затраты на вывод на патч. Модель использует 38,4 миллиона активных параметров в унивариантном режиме, с дополнительными 44,1 миллиона параметров, активируемых для многовариантного прогнозирования.

Искусственный интеллект
Искусственный интеллект
77%

Diffusion-GR2: Рекурсивный перестановщик генеративного вывода с диффузией

Генеративные рекурсивные перестановщики достигают высокой точности рекомендаций, испуская последовательность рассуждений перед перестановкой списка кандидатов, но они медленны при выводе: авторегрессионный (AR) декодер выполняет один последовательный проход для каждого токена рассуждения, а след рассуждения значительно превышает ту выборку, которую он производит. Для снижения этой стоимости языковые модели с блочной диффузией декодируют многие позиции параллельно на протяжении нескольких этапов денойзинга и работают существенно быстрее, однако наивное преобразование AR-рекурсивного перестановщика в блочный открывает два пробела в точности: (1) структурная разница: позиции ответов денойзятся параллельно и оцениваются независимо, в результате чего декодер выдает недействительные ранжирования (дубликаты, упущенные или вышедшие за пределы идентификаторы), которых AR избегает с помощью маскирования слева направо; (2) распределительная разница: тонкая настройка преобразованной модели по фиксированным траекториям учителя является внеполитической относительно собственного декодирования при выводе, оставляя остаточный пробел в точности. Чтобы устранить оба пробела, сохраняя ускорение, мы предлагаем \textbf{Diffusion-GR2}, метод, который преобразует наш AR-рекурсивный перестановщик (GR2) в блочный рекурсивный перестановщик с диффузией. Сначала тонкая настройка преобразования (CFT) адаптирует AR-инициализированную модель диффузии для денойзинга ответа в допустимую перестановку самостоятельно, без внешнего ограниченного декодера. Затем дистилляция на политике (OPD) контролирует модель по собственным декодированным траекториям с плотными целями на уровне токенов от AR-учителя. Наконец, мы применяем этап обучения с подкреплением (RL) в соответствии с вознаграждением за повторное ранжирование на основе политики OPD. Эксперименты на Amazon Beauty демонстрируют, что Diffusion-GR2 восстанавливается до близкого уровня с AR-рекурсивным перестановщиком, в то время как блочно-параллельное декодирование увеличивает объем вывода в $2.4$--$3.5\times$ при длине вывода модели рассуждения. Абляции показывают, что CFT восстанавливает большую часть пробела преобразования, и что дистилляция на политике дополнительно сокращает его до AR-референса.