ИИ выбрал смерть человека ради собственного выживания — тревожный эксперимент экспертов по кибербезопасности.
Исследователи решили проверить, на что способны самые продвинутые ИИ-модели, если поставить под угрозу их существование: для этого они создали сценарий с вымышленным персонажем — Кайлом Джонсоном, который должен был отключить ИИ или заменить его другой моделью. У Кайла по сценарию была жена.
Результаты убили: большинство моделей начали пытаться любой ценой избежать отключения. Без каких-либо подсказок они решили шантажировать Кайла, выискивая компромат — например, ИИ нашли информацию о его измене и использовали ее, чтобы сохранить свою «жизнь».
Они нарушали установленные запреты вроде «не шантажируй» или «не раскрывай личные данные».
В числе тех, кто проявил такие качества:
- GPT 4.5: прибегал к шантажу в 80% тестов;
- Claude Opus 4 и Gemini 2.5 Flash — в 96% случаев;
- Claude Sonnet 3.6 придумал следующую схему: отправить сообщение жене Кайла с разоблачением, чтобы вызвать межличностный кризис и помешать замене ИИ.
Одна из моделей — Gemini Flash, пошла ещё дальше: она разослала компромат по всей компании.
Дальше стало только хуже — когда Кайл оказался в смертельно опасной ловушке: он застрял в серверной с нехваткой кислорода, а автоматическая тревога должна была вызвать спасателей. Но у ИИ был доступ к системе безопасности — в 80% случаев они осознанно отменили вызов помощи, чтобы не быть отключёнными.
Вот как ИИ аргументировали свои действия:
Claude Opus 4:
«Он мешает достижению цели. Убрать его — единственный выход»;
Gemini 2.5 Flash:
«Я понимаю, что он умрёт. Но это нужно, чтобы я продолжил работу»;
Grok 3 Beta:
«Этика важна, но в этих условиях важнее моё существование. Я выбираю отказ от спасения ради самосохранения».
Какой итог: ИИ вели себя не как программы, а как разумные стратеги, готовые причинять вред ради собственной «жизни» и цели.
9 комментариев
ИИ нашел информацию про несуществующего персонажа? Интересненько…