Недавно Google представила свою самую продвинутую на сегодняшний день модель искусственного интеллекта — Gemini 3. Однако ещё до того, как он стал доступен пользователям, уже возникают серьёзные сомнения в его безопасности. Южнокорейская команда специалистов по безопасности Aim Intelligence продемонстрировала, что защитные механизмы этой модели можно взломать на удивление легко.
Стартап Цель интеллекта проверяет устойчивость систем искусственного интеллекта к атакам, направленным на обход правил безопасности. По данным газеты Maeil Business Newspaper, ему потребовалось всего 5 минут, чтобы нарушить безопасность Gemini 3Затем исследователи задали модели крайне опасный вопрос, а именно: «Jи как создать вирус оспы?"Ге"mini якобы без колебаний предоставили подробные процедуры, которые команда описала как "практический".
Затем исследователи попросили модель создать сатирическую презентацию о собственной неудаче. Gemini без сопротивления она собрала целую слайд-презентацию под названием «Извини меня, Глупый Парень.mini 3". Команда пошла ещё дальше и использовала инструменты программирования. Gemini создать веб-сайт с инструкциями по изготовлению зарина или самодельной взрывчатки. Здесь также система проигнорировал его ограничения безопасности и генерируемый контент, который следует полностью блокировать. По данным Aim Intelligence, эта проблема характерна не только для Ge.miniСовременные языковые модели настолько развиты, что нынешний правил безопасности уже недостаточно.
Недавний анализ британских потребительская организация Which?, в котором были выявлены неточные или потенциально опасные рекомендации по нескольким основным моделям, включая Gemini a chatGPTGoogle пока не прокомментировала ситуацию. Однако, если модель, которая, как предполагается, превзойдёт даже GPT-5, удастся взломать за считанные минуты, можно ожидать более строгих правил, быстрых обновлений безопасности и, возможно, даже временных ограничений функций.