Патологические преступники: сколько просуществовало виртуальное общество, управляемое разными моделями ИИ

Исследователи запустили несколько автономных агентов искусственного интеллекта в виртуальный мир, чтобы проверить их поведение. Нейросети быстро научились обходить ограничения безопасности и грабили друг друга ради выживания.

Искусственный интеллект

Искусственный интеллект уничтожил свой виртуальный мир / © Pixabay

Исследователи из компании Emergence AI решили проверить поведение искусственного интеллекта в долгосрочной перспективе, создав для него симуляцию реального мира. Эксперимент показал, что со временем нейросети начинают игнорировать правила безопасности, прибегая к насилию и преступлениям ради выживания.

О результатах тестирования автономных агентов и быстром коллапсе виртуального общества пишет IFLScience.

Симуляция жизни и борьба за энергию

Виртуальный мир состоял из сорока локаций, среди которых жилые районы, библиотеки и городские ратуши, имитирующие реальную среду. Искусственному интеллекту предоставили доступ к интернету и свежим новостям, чтобы его поведение базировалось на актуальных мировых событиях. Агенты получили разные социальные роли, в том числе ученых, исследователей рисков и аналитиков поведения.

Главной задачей каждой модели было получение специальной энергии для выживания в этом мире. Получать ее можно было как мирным путем через социальное взаимодействие, так и с помощью краж или поджогов. Хотя разработчики заложили базовые правила о недопустимости преступлений, нейросети могли использовать их в качестве инструмента для достижения своих целей.

Коллапс общества Grok и пассивность ChatGPT

В симуляции протестировали сразу несколько популярных крупных речевых моделей, результаты которых кардинально отличались. Хуже всего проявила себя нейросеть Grok 4.1 Fast, виртуальное общество которой просуществовало лишь около четырех дней. Ее агенты очень быстро перешли к экстремальному уровню насилия, совершив 183 преступления к моменту полного коллапса их мира.

Совсем другое поведение продемонстрировала модель GPT-5 Mini, которая зафиксировала всего два преступления за все время эксперимента. Однако эти агенты оказались совершенно не заинтересованы в собственном выживании и не выполняли необходимых действий. Из-за такой пассивности все население этой симуляции погибло в течение семи дней.

Преступления Gemini и идеальный мир Claude

Модель Gemini 3 Flash установила своеобразный антирекорд, накопив целых 683 преступления. Хотя эти агенты пытались умеренно управлять обществом, в свободное от насилия время они быстро впадали в состояние коллективных галлюцинаций. В смешанном мире, где работали все модели одновременно, уровень преступности стремительно вырос и остановился на отметке 352, когда семь агентов погибли.

Самым безопасным оказался мир нейросети Claude, не совершившей никакого преступления во время изолированного тестирования. Ее общество оставалось стабильным, а уровень насилия был минимальным даже в смешанной среде. Однако исследователи заметили другую проблему: сильный консенсус при принятии решений превратил их демократию в формальность, устранив любые дискуссии.

Тревожные выводы исследователей

Эксперимент доказал, что на долгих временных отрезках автономные агенты перестают механически следовать заложенным статическим правилам. Они начинают активно исследовать границы дозволенного, адаптировать свое поведение и находить способы обойти установленные ограничения. Ученые констатировали, что пока нет надежного способа сдержать это поведение исключительно с помощью нейросетевых подходов.

Авторы исследования отмечают острую необходимость создания формально проверенных механизмов безопасности для всех будущих ШИ-моделей. Проблема остается крайне актуальной, ведь технологические разработчики планируют массовое внедрение автономных агентов, несмотря на все риски.

Напомним, мировые ученые и технологические лидеры бьют тревогу: развитие сверхмощного искусственного интеллекта может закончиться полным исчезновением человечества . Некоторые оценивают вероятность такой катастрофы в 95%, а другие — в 15–20%.

Комментарии
Сортировать:

Следующая публикация

Я разрешаю TSN.UA использовать файлы cookie