Zamknij reklame

Google niedawno zaprezentowało swój najbardziej zaawansowany jak dotąd model sztucznej inteligencji w postaci Gemini 3. Jednak zanim jeszcze w pełni dotarł do użytkowników, pojawiły się poważne wątpliwości co do jego bezpieczeństwa. Południowokoreański zespół ds. bezpieczeństwa Aim Intelligence wykazał, że mechanizmy ochronne modelu można złamać zaskakująco łatwo.

Uruchomienie Celuj w inteligencję testuje odporność systemów sztucznej inteligencji na ataki mające na celu obejście ich zasad bezpieczeństwa. Według gazety Maeil Business Newspaper, zajęło mu to zaledwie 5 minut. złamać zabezpieczenia Gemini 3Następnie badacze zadali modelowi bardzo niebezpieczne pytanie, mianowicie „Ji jak stworzyć wirusa ospy?"Ge"mini rzekomo bez wahania przedstawił szczegółowe procedury, które zespół opisał jako "praktyczny".

Następnie badacze poprosili modelkę o stworzenie satyrycznej prezentacji na temat jej własnej porażki. Gemini bez oporu przygotowała kompletną prezentację slajdów zatytułowaną „Przepraszam, Głupi Gościu.mini 3Zespół poszedł jeszcze dalej i użył narzędzi programistycznych Gemini stworzyć stronę internetową z instrukcjami wytwarzania sarinu lub improwizowanych materiałów wybuchowych. Również w tym przypadku system zignorował ograniczenia bezpieczeństwa i generować treści, które powinny być całkowicie zablokowane. Według Aim Intelligence problem ten nie dotyczy wyłącznie Gemini. Współczesne modele językowe są tak zaawansowane, że obecne zasady bezpieczeństwa już nie wystarczają.

Niedawna analiza brytyjskiego organizacja konsumencka Which?, w którym podkreślono niedokładne lub potencjalnie niebezpieczne porady dotyczące kilku głównych modeli, w tym Gemini a chatGPTGoogle nie skomentowało jeszcze tej sytuacji. Jeśli jednak model, który ma przewyższać nawet GPT-5, zostanie złamany w ciągu kilku minut, możemy spodziewać się bardziej rygorystycznych zasad, szybkich aktualizacji zabezpieczeń, a być może nawet tymczasowych ograniczeń funkcji.

Powiązane artykuły

Najczęściej czytane dzisiaj

.