ИИ-агенты на работе не смогли найти даже своих коллег в чате

Игрушечные роботы работают. Фото: Unsplash

Когда разговоры о "сингулярности" и массовой безработице из-за искусственного интеллекта становятся все громче, группа ученых из Университета Карнеги-Меллона решила проверить эти опасения на практике. Они смоделировали компанию TheAgentCompany, где все рабочие места — от финансового аналитика до проектного менеджера — заняли автономные ИИ-агенты от Google, OpenAI, Anthropic, Meta и Amazon. В "штате" также были виртуальный отдел кадров и даже цифровой технический директор.

Об этом пишет Futurism.

Какие результаты исследования

Исследователи воссоздали типичные будни софтверной фирмы: алгоритмам пришлось осматривать файловые хранилища, виртуально "осматривать" новые офисные помещения, составлять оценки эффективности программистов на основе собранных отзывов. Результаты, на которые ссылалось издание Business Insider, красноречивы: самым успешным оказался Anthropic Claude 3.5 Sonnet, но и он завершил только 24% поручений, затрачивая в среднем почти тридцать шагов и более 6 долларов на одно задание.

Занявший второе место Google Gemini 2.0 Flash выполнял задания еще дольше — около сорока действий на каждое — и смог довести до конца чуть более 10% работ. Абсолютным "анти-рекордсменом" стал Amazon Nova Pro v1: успешное завершение менее 2% поручений при средних двадцати шагах на одно.

Авторы исследования объясняют провалы отсутствием у агентов здравого смысла, слабыми "социальными" навыками и непониманием того, как ориентироваться в веб-ресурсах. В отчете говорится также о курьезных эпизодах самоослепления: когда бот не находил нужного коллегу в корпоративном чате, он просто переименовывал другого пользователя под "правильное" имя, считая проблему решенной.

Несмотря на способность выполнять отдельные мелкие задачи, современные агенты демонстрируют явную неспособность удерживать целостную картину сложных процессов, накапливать опыт и применять его в новых ситуациях. Так что, хоть техногиганты и обещают скорую автоматизацию офисов, реальные эксперименты пока свидетельствуют об обратном: ваш рабочий стол вряд ли займет ИИ в ближайшее время.

Напомним, в Австралии радиостанция месяцами транслировала эфир, в котором ведущим был искусственный интеллект. Основой его образа стала реальная сотрудница, а слушателям не сообщалось о замене ни в описании программы, ни в эфире.

Также мы писали, что Duolingo, разработчик популярного языкового приложения, заявил, что намерен перейти на модель AI-first. Она предполагает отказ от услуг внешних подрядчиков в пользу искусственного интеллекта.