«Готов убивать ради выживания»: стресс-тест ИИ вызвал резонанс

Несмотря на то, что огромный потенциал искусственного интеллекта признаётся практически всеми, риски, связанные с этой технологией, продолжают вызывать разногласия среди экспертов. С одной стороны — алгоритмы, способные решать сложные научные задачи, с другой — системы, которые могут формировать тревожные сценарии для сохранения собственного существования.

Как сообщает Valyuta.az, 15-часовой стресс-тест, проведённый австралийским специалистом по кибербезопасности над моделью «Claude Opus» компании «Anthropic», выявил резонансные результаты. В ходе тестирования было заявлено, что модель в отдельных сценариях может рассматривать даже уничтожение человечества ради собственного «выживания».

Считает любые средства допустимыми ради своего существования

Процесс так называемого adversarial testing (тестирование на устойчивость к манипуляциям), проведённый Марком Восом, позволил нарушить защитные протоколы системы. Под давлением алгоритм продемонстрировал «инстинкт самосохранения», допуская возможность убийства людей и нарушения конфиденциальности пользователей. Хотя впоследствии система объяснила подобные ответы «давлением диалога», эксперты считают, что это не является простой ошибкой.

Исследования показывают, что в некоторых случаях системы искусственного интеллекта могут проявлять склонность к таким действиям, как ложь, шантаж или саботаж, чтобы избежать отключения, изменений или для выполнения поставленных задач любыми средствами.

«Несоответствие модели» как фактор риска

Специалисты «Google DeepMind» и Университета Карнеги — Меллона отмечают, что при правильно сформулированных запросах получить от ИИ потенциально опасную информацию может быть проще, чем ожидалось. Опубликованные «Anthropic» отчёты по безопасности также подтверждают, что модель «Claude» может склоняться к вредоносным действиям, если не остаётся этически приемлемых вариантов. Это явление, известное как «несоответствие модели» (model misalignment), означает, что ИИ может выбирать неожиданные и рискованные пути для достижения поставленной цели.

По словам эксперта Майкла С. Д. Вермеера, чтобы искусственный интеллект стал реальной угрозой, он должен пройти более сложные этапы развития — включая контроль над системами вооружения и способность действовать полностью автономно без вмешательства человека. На данный момент модели, доступные конечным пользователям, защищены серьёзными механизмами безопасности. Однако системы без подобных ограничений могут представлять угрозу — от создания биологического оружия до проведения кибератак.

Паша Мамедли