Вчені створили компанію, де всі співробітники штучний інтелект. Вгадайте, що пішло не так (2 фото)
Дослідники з Університету Карнегі-Меллон провели експеримент, у якому створили віртуальну IT-компанію із співробітниками-роботами. Навіть найкращий ІІ-працівник зміг виконати лише чверть поставлених завдань, а решта показала ще більш плачевні результати, пише видання Futurism.
Дослідники створили віртуальну компанію під назвою The AgentCompany, де всі позиції - від фінансових аналітиків і програмістів до проектних менеджерів - займали не люди, а ІІ-агенти від Google, OpenAI, Anthropic і Meta. Агент — це модель штучного інтелекту, яка має самостійно виконувати поставлені завдання, подібно до людини.
Віртуальним співробітникам доручили звичайні офісні завдання: працювати з файлами, здійснювати віртуальні екскурсії новими офісними приміщеннями та писати відгуки на роботу колег.
Результати виявилися катастрофічними. Кращою моделлю стала Claude 3.5 Sonnet від компанії Anthropic, але вона змогла виконати лише 24% поставлених завдань. При цьому її робота була вкрай неефективною — в середньому на кожну задачу йшло близько 30 кроків та понад шість доларів.
Gemini 2.0 Flash від Google витрачав на кожне завдання близько 40 кроків, але успішно завершував лише 11,4% завдань. Найгіршим «співробітником» виявився Nova Pro v1 від Amazon, який впорався лише з 1,7% доручень.
Дослідники зазначили, що цифровим працівникам не вистачає здорового глузду, соціальних навичок та розуміння того, як працювати в інтернеті. ІІ-співробітники часто вигадували безглузді рішення проблем — наприклад, коли один робот не зміг знайти потрібну людину в корпоративному чаті, він просто перейменував іншого користувача.
Хоча сучасні ІІ-моделі можуть непогано справлятися з деякими простими завданнями, результати цього та інших досліджень показують, що вони поки що не готові до більш складної роботи, з якою легко справляються люди. Багато в чому це пов'язано з тим, що нинішній «штучний інтелект» — це, по суті, просунута версія передиктивного введення тексту у вашому телефоні, а не розумна істота, здатна вирішувати проблеми, вчитися на досвіді та застосовувати його у нових ситуаціях, зазначають автори.