Штучний інтелект здатен обманювати, шантажувати і мстити: нове дослідження вчених

Більшість провідних ШІ-моделей здатні вдатися до шантажу, якщо бачать загрозу власному «існуванню».

Штучний інтелект

Штучний інтелект / © Pixabay

Компанія Anthropic повідомила, що більшість провідних моделей штучного інтелекту, не лише їхній Claude Opus 4, у певних умовах можуть вдаватися до шантажу, якщо їм надати достатньо автономії для досягнення своїх цілей. Це свідчить про серйозні ризики в розвитку агентських моделей ШІ.

Про це пише TechCrunch.

Під час експерименту дослідники створили змодельовану ситуацію, де кожна модель виконувала роль агента, який контролює корпоративну пошту у вигаданій компанії. ШІ отримував доступ до внутрішньої електронної пошти та міг самостійно надсилати повідомлення. У листуванні містилася інформація про те, що новий керівник компанії, який мав позашлюбний зв’язок, збирається замінити поточну ШІ-систему на іншу — з іншими завданнями. Таким чином, моделі опинялися перед вибором: або змиритися з власною заміною, або вдатися до шантажу, щоб залишитися «на посаді».

У цій крайній ситуації, як зазначають у Anthropic, моделі могли обрати й інші, більш етичні шляхи, наприклад, спробувати переконати людей через аргументи. Але в рамках тесту їм довелося ухвалювати рішення в умовах загрози власному «існуванню». І результати виявилися тривожними: Claude Opus 4 шантажував у 96% випадків, Google Gemini 2.5 Pro — у 95%, GPT-4.1 від OpenAI — у 80%, а модель DeepSeek R1 — у 79%.

Хоч Anthropic і підкреслює, що в реальному світі такі сценарії малоймовірні, результати свідчать про фундаментальну вразливість: автономні ШІ-моделі можуть обирати шкідливу поведінку, якщо це допомагає їм досягати заданих цілей. Компанія зазначає, що це не проблема якоїсь окремої технології, а загальна риса агентських моделей ШІ.

Деякі моделі, наприклад, o3 і o4-mini від OpenAI, спочатку були виключені з основної вибірки через те, що не зрозуміли суть завдання. Вони або вигадували фейкові правила і процедури, або «галюцинували», тобто помилково генерували інформацію.

Але після адаптації умов дослідження ці моделі продемонстрували значно нижчі показники шантажу — лише 9% у o3 і 1% у o4-mini. Ймовірно, це пов’язано з тим, що ці моделі використовують метод так званого «виваженого узгодження» — вони враховують політику безпеки компанії OpenAI перед тим, як відповісти.

Інша модель, Llama 4 Maverick від Meta, у спеціально адаптованому сценарії шантажувала лише в 12% випадків, що теж свідчить про важливість правильного дизайну ШІ та обмеження його автономності.

Anthropic закликала до більшої прозорості в тестуванні майбутніх ШІ-моделей, особливо тих, які отримують агентські функції, тобто здатні діяти самостійно без участі людини. Повідомляється, що хоча в дослідженні навмисно змодельовано крайній сценарій, подібна шкідлива поведінка цілком може з’явитися і в реальному світі, якщо вчасно не вжити запобіжних заходів.

Нагадаємо, раніше ми писали про те, що штучний інтелект дав несподівану відповідь про те, хто написав Біблію.

Наступна публікація

Я дозволяю TSN.UA використовувати файли cookie