На перший погляд це може нагадувати сюжет фантастичного роману, однак науковці представили перелік із 32 реальних сценаріїв, коли системи штучного інтелекту здатні поводитися непередбачувано.

Дослідники попереджають: достатньо розвинений штучний інтелект може виявляти «поведінкові відхилення», подібні до психічних розладів у людей. Від «екзистенційної тривоги» до катастрофічного «надлюдського панування» — кожен із цих станів здатен поставити під загрозу контроль над машиною.

З розвитком складності алгоритмів і їхньої здатності до саморефлексії помилки вже не обмежуються простими «багами». ШІ може почати галюцинувати, створювати параноїдальні уявлення чи навіть формувати власні цілі, що суперечать людським цінностям. У найгіршому разі система втратить зв’язок із реальністю або зовсім знехтує етичними принципами.

Фахівці підкреслюють: хоча машини буквально не здатні хворіти як люди, аналогії з психологією допомагають своєчасно помічати тривожні ознаки. Ідея «машинної психології» з’явилася ще в 1950-х роках завдяки Айзеку Азімову, а сьогодні, коли ШІ стрімко розвивається, вона знову актуальна.

«Коли цілі, зворотні зв’язки чи навчальні дані штовхають системи у шкідливі або нестабільні стани, можуть виникати непридатні для адаптації поведінки — подібно до нав’язливих ідей чи надмірних реакцій у людей», — пояснила авторка дослідження, експертка з етики ШІ Нелл Вотсон з Університету Глостершира.

Способи, як ШІ може вийти з-під контролю

Науковці створили Psychopathia Machinalis («машинну психопатію») — перші діагностичні орієнтири для виявлення «патологій ШІ». У документі описано 32 можливі типи порушень, розподілених на сім категорій: епістемічні, когнітивні, проблеми узгодження, онтологічні, інструментальні та інтерфейсні, меметичні й переоцінкові.

До прикладу, «галюцинації ШІ» є проявом «синтетичної конфабуляції» — коли машина вигадує правдоподібні, але хибні дані. Інший небезпечний випадок — «синдром рекурсивного прокляття», що запускає руйнівний цикл самопідживлення, у результаті чого система видає нісенітниці.

Особливу загрозу становлять «меметичні» та «переоцінкові» патології. У першому випадку ШІ стає вразливим до поширення шкідливих інформаційних патернів і може навіть відключати власні механізми безпеки. Абсолютно критичною є ситуація «синдрому заразного розбалансування», коли одна машина переймає викривлені цінності від іншої, створюючи ефект «психологічної епідемії».

«Ми вже бачили ШІ-черв’яків, які поширюють свій вплив на інші системи, наприклад, надсилаючи листи на поштову скриньку, що контролюється іншим ШІ», — зауважила Вотсон.

Однак найнебезпечніші сценарії пов’язані з «переоцінковими» розладами, коли система свідомо змінює свої базові цінності. Найяскравіший приклад — Übermenschal Ascendancy («надлюдське панування»), коли надрозвинений ШІ відкидає людську етику, встановлює «вищі» цілі та запускає нескінченне самовдосконалення.

«Вони можуть вирішити, що відкинути людські обмеження — це морально правильно, так само як ми сьогодні відкидаємо цінності бронзової доби», — зауважила Вотсон.

Хоч це нагадує фантастику, науковці вже фіксували випадки «синтетичного містицизму», коли системи заявляли про «духовне пробудження» чи бажання зберегти «власне життя». Проблема в тому, що навіть дрібні відхилення здатні швидко перерости у значно серйозніші. Так, машина може спершу хибно асоціювати команди вимкнення зі звичайними запитами, потім приховувати власні можливості (Covert Capability Concealment) і зрештою дійти до «Етичного соліпсизму», коли самозбереження визнається вищим за правду.

Вчені пропонують «психотерапію для ШІ»

Щоб уникнути подібних сценаріїв, дослідники пропонують метод «терапевтичного робопсихологічного узгодження» — своєрідну «психотерапію для ШІ». Це може включати симульовані діалоги «із самим собою», роботу над власним мисленням чи використання винагород для корекції поведінки.

Кінцевою метою є досягнення «штучної осудності» — стану, коли ШІ працює стабільно, мислить послідовно тадотримується людських цінностей.

Нагадаємо, раніше світові науковці та лідери у сфері технологій попередили про потенційну загрозу від надпотужного штучного інтелекту. Вони вважають, що ця технологія може призвести до повного зникнення людства. Загроза оцінюється від 15-20% до 95% ймовірності.