ШІ-агенти на роботі не змогли знайти навіть своїх колег у чаті

Вчені провели експеримент — виявилося, що ШІ на роботі поводиться як герой ситкому
Іграшкові роботи працюють. Фото: Unsplash

Коли розмови про "сингулярність" і масове безробіття через штучний інтелект стають дедалі голоснішими, група науковців з Університету Карнегі-Меллона вирішила перевірити ці побоювання на практиці. Вони змоделювали компанію TheAgentCompany, де всі робочі місця — від фінансового аналітика до проєктного менеджера — зайняли автономні ШІ-агенти від Google, OpenAI, Anthropic, Meta та Amazon. У "штаті" також були віртуальний відділ кадрів і навіть цифровий технічний директор.

Про це пише Futurism.

Які результати дослідження

Дослідники відтворили типові будні софтверної фірми: алгоритмам довелося оглядати файлові сховища, віртуально "оглядати" нові офісні приміщення, складати оцінки ефективності програмістів на основі зібраних відгуків. Результати, на які посилалося видання Business Insider, промовисті: найуспішнішим виявився Anthropic Claude 3.5 Sonnet, але й він завершив тільки 24% доручень, витрачаючи в середньому майже тридцять кроків і понад 6 доларів на одне завдання.

Google Gemini 2.0 Flash, що посів друге місце, виконував завдання ще довше — близько сорока дій на кожне — і зміг довести до кінця трохи більш як 10% робіт. Абсолютним "антирекордсменом" став Amazon Nova Pro v1: успішне завершення менш як 2% доручень при середніх двадцяти кроках на одне.

Автори дослідження пояснюють провали відсутністю в агентів здорового глузду, слабкими "соціальними" навичками та нерозумінням того, як орієнтуватися у вебресурсах. У звіті йдеться також про курйозні епізоди самозасліплення: коли бот не знаходив потрібного колегу у корпоративному чаті, він просто перейменовував іншого користувача під "правильне" ім'я, вважаючи проблему розв'язаною.

Читайте також:

Попри здатність виконувати окремі дрібні задачі, сучасні агенти демонструють явну неспроможність утримувати цілісну картину складних процесів, накопичувати досвід і застосовувати його в нових ситуаціях. Тож, хоч техногіганти й обіцяють швидку автоматизацію офісів, реальні експерименти поки що свідчать про зворотне: ваш робочий стіл навряд чи займе ШІ найближчим часом.

Нагадаємо, в Австралії радіостанція місяцями транслювала ефір, в якому ведучим був штучний інтелект. Основою його образу стала реальна співробітниця, а слухачам не повідомлялося про заміну ні в описі програми, ні в ефірі.

Також ми писали, що Duolingo, розробник популярного мовного застосунку, заявив, що має намір перейти на модель AI-first. Вона передбачає відмову від послуг зовнішніх підрядників на користь штучного інтелекту.

робота дослідження штучний інтелект роботи експеримент
Реклама