ШІ-агенти на роботі не змогли знайти навіть своїх колег у чаті

Вчені провели експеримент — виявилося, що ШІ на роботі поводиться як герой ситкому
Іграшкові роботи працюють. Фото: Unsplash

Коли розмови про "сингулярність" і масове безробіття через штучний інтелект стають дедалі голоснішими, група науковців з Університету Карнегі-Меллона вирішила перевірити ці побоювання на практиці. Вони змоделювали компанію TheAgentCompany, де всі робочі місця — від фінансового аналітика до проєктного менеджера — зайняли автономні ШІ-агенти від Google, OpenAI, Anthropic, Meta та Amazon. У "штаті" також були віртуальний відділ кадрів і навіть цифровий технічний директор.

Про це пише Futurism.

Реклама
Читайте також:

Які результати дослідження

Дослідники відтворили типові будні софтверної фірми: алгоритмам довелося оглядати файлові сховища, віртуально "оглядати" нові офісні приміщення, складати оцінки ефективності програмістів на основі зібраних відгуків. Результати, на які посилалося видання Business Insider, промовисті: найуспішнішим виявився Anthropic Claude 3.5 Sonnet, але й він завершив тільки 24% доручень, витрачаючи в середньому майже тридцять кроків і понад 6 доларів на одне завдання.

Google Gemini 2.0 Flash, що посів друге місце, виконував завдання ще довше — близько сорока дій на кожне — і зміг довести до кінця трохи більш як 10% робіт. Абсолютним "антирекордсменом" став Amazon Nova Pro v1: успішне завершення менш як 2% доручень при середніх двадцяти кроках на одне.

Автори дослідження пояснюють провали відсутністю в агентів здорового глузду, слабкими "соціальними" навичками та нерозумінням того, як орієнтуватися у вебресурсах. У звіті йдеться також про курйозні епізоди самозасліплення: коли бот не знаходив потрібного колегу у корпоративному чаті, він просто перейменовував іншого користувача під "правильне" ім'я, вважаючи проблему розв'язаною.

Попри здатність виконувати окремі дрібні задачі, сучасні агенти демонструють явну неспроможність утримувати цілісну картину складних процесів, накопичувати досвід і застосовувати його в нових ситуаціях. Тож, хоч техногіганти й обіцяють швидку автоматизацію офісів, реальні експерименти поки що свідчать про зворотне: ваш робочий стіл навряд чи займе ШІ найближчим часом.

Нагадаємо, в Австралії радіостанція місяцями транслювала ефір, в якому ведучим був штучний інтелект. Основою його образу стала реальна співробітниця, а слухачам не повідомлялося про заміну ні в описі програми, ні в ефірі.

Також ми писали, що Duolingo, розробник популярного мовного застосунку, заявив, що має намір перейти на модель AI-first. Вона передбачає відмову від послуг зовнішніх підрядників на користь штучного інтелекту.

робота дослідження штучний інтелект роботи експеримент
Реклама
Реклама
Реклама
Реклама