ИИ-агенты на работе не смогли найти даже своих коллег в чате

Ученые провели эксперимент — оказалось, что ИИ на работе ведет себя как герой ситкома
Игрушечные роботы работают. Фото: Unsplash

Когда разговоры о "сингулярности" и массовой безработице из-за искусственного интеллекта становятся все громче, группа ученых из Университета Карнеги-Меллона решила проверить эти опасения на практике. Они смоделировали компанию TheAgentCompany, где все рабочие места — от финансового аналитика до проектного менеджера — заняли автономные ИИ-агенты от Google, OpenAI, Anthropic, Meta и Amazon. В "штате" также были виртуальный отдел кадров и даже цифровой технический директор.

Об этом пишет Futurism.

Какие результаты исследования

Исследователи воссоздали типичные будни софтверной фирмы: алгоритмам пришлось осматривать файловые хранилища, виртуально "осматривать" новые офисные помещения, составлять оценки эффективности программистов на основе собранных отзывов. Результаты, на которые ссылалось издание Business Insider, красноречивы: самым успешным оказался Anthropic Claude 3.5 Sonnet, но и он завершил только 24% поручений, затрачивая в среднем почти тридцать шагов и более 6 долларов на одно задание.

Занявший второе место Google Gemini 2.0 Flash выполнял задания еще дольше — около сорока действий на каждое — и смог довести до конца чуть более 10% работ. Абсолютным "анти-рекордсменом" стал Amazon Nova Pro v1: успешное завершение менее 2% поручений при средних двадцати шагах на одно.

Авторы исследования объясняют провалы отсутствием у агентов здравого смысла, слабыми "социальными" навыками и непониманием того, как ориентироваться в веб-ресурсах. В отчете говорится также о курьезных эпизодах самоослепления: когда бот не находил нужного коллегу в корпоративном чате, он просто переименовывал другого пользователя под "правильное" имя, считая проблему решенной.

Читайте также:

Несмотря на способность выполнять отдельные мелкие задачи, современные агенты демонстрируют явную неспособность удерживать целостную картину сложных процессов, накапливать опыт и применять его в новых ситуациях. Так что, хоть техногиганты и обещают скорую автоматизацию офисов, реальные эксперименты пока свидетельствуют об обратном: ваш рабочий стол вряд ли займет ИИ в ближайшее время.

Напомним, в Австралии радиостанция месяцами транслировала эфир, в котором ведущим был искусственный интеллект. Основой его образа стала реальная сотрудница, а слушателям не сообщалось о замене ни в описании программы, ни в эфире.

Также мы писали, что Duolingo, разработчик популярного языкового приложения, заявил, что намерен перейти на модель AI-first. Она предполагает отказ от услуг внешних подрядчиков в пользу искусственного интеллекта.

работа исследование искусственный интеллект роботы эксперимент
Реклама