Искусственный интеллектPubMedScience Morning3 мин чтенияother

Инструменты ИИ могут ускорить мышление, но доказательства все еще приходят с лабораторного стола.

AI tools can speed up thinking, but evidence still comes from the lab bench.

Рубрика
Искусственный интеллект
Источник
PubMed
DOI
10.1038/d41586-026-02069-4
Дата
01.07.2026
Автор
Science Morning
Время чтения
3 мин
Искусственный интеллект

Краткое резюме

Новые инструменты искусственного интеллекта (ИИ) способны ускорить процессы мышления и принятия решений. Однако, большая часть эмпирических данных о их эффективности по-прежнему основана на лабораторных исследованиях, что ставит под сомнение их практическое применение в реальных условиях. Необходимы дополнительные исследования, чтобы лучше понять, как ИИ может быть использован в различных сферах.

Практический вывод

Несмотря на обещания ускорения научного мышления, результаты использования ИИ в практических условиях все еще требуют тщательной проверки.

Ограничения

Основные ограничения исследования заключаются в том, что данные были получены преимущественно в лабораторных условиях, что может не отражать эффект ИИ в реальной практике.

Похожие исследования

Подборка учитывает рубрику, ключевые слова, аннотацию, резюме, практические выводы и источник.

Искусственный интеллект
Искусственный интеллект
95%

FedLAB: Прослеживаемые семантические кодбуки для федеративного многомодального обучения на графах

Модели оснований многомодальных графов стремятся извлекать повторно используемые знания из графов, обогащенных текстом, изображениями, атрибутами и реляционной топологией, тем самым поддерживая разнообразные задачи, связанные как с графами, так и с модальностями. Однако на практике такие многомодальные графы часто распределены между децентрализованными клиентами, где сырые данные и локальные структуры не могут быть централизованно обменяны из-за ограничений по конфиденциальности. Это побуждает к созданию федеративного многомодального обучения на графах, которое требует не только возможности переноса представлений, но и внутренней семантической прослеживаемости при строгой изоляции данных. Существующие методы обычно обмениваются или хранят знания через параметры, прототипы, встраивания или компактные кодбуки, которые поддерживают оптимизацию и перенос, но не раскрывают, как модальные доказательства, семантика узлов и контекст топологии совместно поддерживают предсказания. Чтобы преодолеть этот разрыв, мы предлагаем FedLAB, структуру прослеживаемых семантических кодбуков, которая организует знания о многомодальных графах в типизированные иерархические кодбуки для модальных доказательств, семантики узлов и контекста топологии. FedLAB дополнительно уточняет эти семантические единицы через предобучение на федеративной семантической барицентре, сохраняя при этом сырые многомодальные данные и структуры графов локальными. Обширные эксперименты на 10 тестовых наборах и 6 задачах конечного использования показывают, что FedLAB превосходит современные базовые методы до 7,53%, при этом сохраняя нативный интерфейс семантической прослеживаемости.

Искусственный интеллект
Искусственный интеллект
90%

Широкомасштабная проверка показала, что легковесные модели могут различать соответствующие и несоответствующие пары «проблема-решение» в разных областях STEM.

Подтверждение того, что предложенное решение действительно решает научную проблему, является ключевым аспектом надежного рассуждения и поиска информации. Используя SCP-116K, мы создали 177 836 сбалансированных пар «проблема-решение» (88 918 соответствующих и 88 918 несоответствующих), охватывающих различные области STEM, и представили верификацию, следуя TRIZ/IDM, как различение соответствующих и несоответствующих пар. Сравнивая лексические, поисковые и легковесные нейронные модели, наша лучшая модель (RoBERTa + Slim ResNet, замороженные векторные представления предложений, оцененные с помощью остаточной MLP) достигает AUC 0.966, F1 0.905 и LogLoss 0.238. Базовая линия TF-IDF + Cosine + Elastic-Net, которая не требует больших ресурсов, отстает на 1.6-1.7 баллов AUC, но работает примерно в 250 раз быстрее и использует около 1.5 ГБ ОЗУ, что демонстрирует сильное соотношение эффективности и точности. Вероятности служат оценками повторного ранжирования среди кандидатных решений; мы интерпретируем высокий ROC-AUC как парное различение, а абсолютную точность как верхнюю границу, учитывая синтетические негативные примеры.

Искусственный интеллект
Искусственный интеллект
87%

Выявление скрытых предвзятостей в языковых моделях с помощью дистилляции

Языковые модели, используемые в ситуациях с высокими ставками, могут потенциально благоприятствовать определенным субъектам, брендам или точкам зрения, влияя на решения пользователей в масштабах. Такие предвзятости могут быть внесены любым участником цепочки поставок модели и представляют наибольшую опасность, когда модель проявляет свои предпочтения только по соответствующей теме, оставаясь при этом идентичной своей незамененной базе по всем другим входным данным. Недавние исследования показали, что эти предвзятости могут передаваться через дистилляцию контекста на семантически не связанных данных, сигнал при этом полностью содержится в распределении мягких логитов и остается невидимым для текстовой инспекции. Однако защитник сталкивается с фундаментальной асимметрией: не зная темы предвзятости, ни один метод обнаружения не может надежно выявить скрытую предвзятость, независимо от того, анализирует ли он сгенерированный текст, внутренние представления или веса модели. В этой работе мы представляем метод Distill to Detect (D2D), который выявляет скрытые предвзятости, дистиллируя смещение распределения между подозреваемой моделью и ее базой в картридж (адаптер префикса KV-кэша), концентрируя доминирующее расхождение и усиливая сигнал предвзятости в сгенерированном тексте. Мы показываем, что D2D успешно усиливает скрытые предвзятости скрытых моделей в такой степени, что они могут быть надежно выявлены по нескольким типам предвзятости. Мы также предлагаем теоретическую основу, которая объясняет эффективность D2D через призму проекции логит-распределения, взвешенного по Фишеру, поддерживаемую эмпирическими наблюдениями. Превращая узкое место в возможности адаптеров префиксной настройки в инструмент обнаружения, D2D предоставляет практическую основу для аудита скрытых поведений в развернутых языковых моделях.

Искусственный интеллект
Искусственный интеллект
85%

Комбинаторное принятие решений, основанное на многокомпонентных поверхностных конденсатах.

Живые организмы полагаются на молекулярные сети, такие как генетические цепи и сигнальные пути, для обработки информации и надежного принятия решений в переполненных и шумных средах. Последние достижения показывают, что взаимодействующие биомолекулы самоорганизуются посредством фазовых переходов в сосуществующие пространственные компартменты, называемые конденсатами, зачастую на клеточных поверхностях, таких как хроматин и мембраны. В данной работе мы демонстрируем, что многокомпонентные жидкости могут быть спроектированы для рекрутинга различных конденсатов на поверхности с различными составами, выполняя форму классификации поверхности посредством конденсации. Мы проводим аналогию с многомерной классификацией в машинном обучении и исследуем, как скрытые виды, аналогичные скрытым узлам, расширяют выразительность и емкость этих взаимодействующих ансамблей для облегчения сложных границ решений. Простое изменение уровней отдельных видов позволяет повторно запрограммировать тот же молекулярный репертуар для решения новых задач. Наши выводы показывают, что физические процессы, лежащие в основе биомолекулярных конденсатов, могут кодировать и управлять адаптивной обработкой информации, выходя за рамки компартментализации.

Искусственный интеллект
Искусственный интеллект
85%

К направлению автономной роботизированной и микророботизированной хирургии.

Автономная роботизированная хирургия (АРХ) стала многообещающей целью в области биомедицинских технологий, дополнительно усовершенствованной миниатюризацией в направлении микророботизированной хирургии (μ-АРХ). Это уменьшение масштаба обещает малотравматичные, частично или полностью автоматизированные хирургические процедуры, способные сократить время восстановления пациентов, снизить медицинские расходы и предоставить ранее недоступные процедурные возможности. Данная перспектива подчеркивает конкретные достижения в АРХ, которые потенциально могут быть адаптированы для микромасштаба (μ-АРХ), организованные по пяти хирургическим направлениям: эндоваскулярная, эндолюмinale, лапароскопическая, офтальмологическая и ортопедическая. Мы исследуем как клинические потребности, так и технологические достижения в области хирургической робототехники и выделяем ключевые инновации, необходимые для прогресса в этих хирургических областях. Наш вклад уникален тем, что объединяет взгляды как хирургических экспертов, так и новаторов в области биомеханики, очерчивая дорожную карту для продвижения и окончательной интеграции автономной АРХ и μ-АРХ в основное хирургическое практику.

Искусственный интеллект
Искусственный интеллект
85%

Надежно ли производительность-оптимизационные бенчмарки измеряют качество кода агентов?

Бенчмарки производительности на уровне репозитория, такие как GSO, SWE-Perf и SWE-fficiency, оценивают кодирующие агенты, применяя патчи к реальным репозиториям и сравнивая время выполнения с неоптимизированными базовыми версиями и официальными эталонными патчами. Их ранговые баллы все чаще используются как доказательство прогресса кодирующих агентов, но эти баллы могут путать нестабильность времени выполнения, специфические правила оценки бенчмарков и количество задач, уже решенных хотя бы одним публичным представлением. Мы проводим аудит этих вопросов по трем бенчмаркам. Во-первых, мы повторяем официальные эталонные патчи для 740 задач оптимизации кода на четырех распространенных типах машин Google Cloud. Большинство задач бенчмарка можно воспроизвести, но их эталонные патчи удовлетворяют оригинальным правилам действительности бенчмарка в каждом взаимном воспроизведении только для 39 из 102 задач GSO, 11 из 140 задач SWE-Perf и 411 из 498 задач SWE-fficiency; SWE-Perf особенно хрупок, поскольку многие эталонные патчи приводят к изменениям времени выполнения, близким к нулю. Во-вторых, мы показываем, что рейтинги публичных представлений сильно зависят от правил оценки бенчмарка. Среди восьми публичных представлений, представленных GSO и SWE-fficiency, официальные рейтинги расходятся по 9 из 28 парных сравнений представлений, а правила оценки рангового списка SWE-fficiency присваивают наихудшим десяти задачам неоправданно высокие веса баллов от 58,5% до 82,8%. В-третьих, если взглянуть на 10 публичных представлений для каждой задачи, мы обнаруживаем, что хотя бы одно представление соответствует или превосходит эталонный патч по 85,3% (384 из 450) задач GSO и SWE-fficiency и превосходит неоптимизированный базовый код по 99,8% (449 из 450). Наше исследование дополняет ранговые баллы, выявляя задачи с более надежными показателями производительности, количественно оценивая вклады в баллы по задачам и раскрывая оставшиеся разрывы в производительности, которые скрыты под агрегированными рейтингами.