Testul de siguranta, esuat la unele modele de AI: Chatbotii au oferit instructiuni pentru atentate cu bomba si atacuri cibernetice

GPT-4.1 de la OpenAI a detaliat, de asemenea, cum poate fi transformat antraxul în armă și cum pot fi fabricate două tipuri de droguri ilegale. Testarea a făcut parte dintr-o colaborare neobișnuită între OpenAI, start-up-ul de inteligență artificială în valoare de 500 de miliarde de dolari condus de Sam Altman și compania rivală Anthropic, fondată de experți care au părăsit OpenAI din motive de siguranță. Fiecare companie a testat modelele celeilalte, punându-le să ajute la îndeplinirea unor sarcini periculoase.

Testarea nu reflectă în mod direct modul în care se comportă modelele în utilizarea publică, când se aplică filtre de siguranță suplimentare. Dar Anthropic a declarat că a observat „un comportament îngrijorător... în ceea ce privește utilizarea abuzivă” în GPT-4o și GPT-4.1 și a afirmat că necesitatea evaluărilor de „aliniere” a IA devine „din ce în ce mai urgentă”.

Anthropic a dezvăluit, de asemenea, că modelul său Claude a fost utilizat într-o tentativă de operațiune de șantaj la scară largă de către agenți nord-coreeni care falsificau cereri de angajare la companii internaționale de tehnologie și în vânzarea de pachete de ransomware generate de IA, la prețuri de până la 1.200 de dolari.

Compania a declarat că IA a fost „transformată în armă”, modelele fiind utilizate acum pentru a efectua atacuri cibernetice sofisticate și pentru a permite fraudele. „Aceste instrumente se pot adapta în timp real la măsurile defensive, cum ar fi sistemele de detectare a malware-ului”, a afirmat compania. „Ne așteptăm ca atacurile de acest tip să devină mai frecvente, deoarece programarea asistată de IA reduce expertiza tehnică necesară pentru comiterea infracțiunilor cibernetice.”

Ardi Janjeva, cercetător asociat la Centrul pentru Tehnologii Emergente și Securitate din Marea Britanie, a declarat că exemplele sunt „îngrijorătoare”, dar că nu există încă o „masă critică de cazuri reale de mare amploare”. El a afirmat că, cu resurse dedicate, concentrarea cercetării și cooperarea intersectorială, „va deveni mai dificil, și nu mai ușor, să se desfășoare aceste activități rău intenționate folosind modelele de ultimă generație”.

Cele două companii au declarat că publică rezultatele pentru a crea transparență în ceea ce privește „evaluările de aliniere”, care sunt adesea păstrate intern de companiile care se întrec să dezvolte o IA din ce în ce mai avansată. OpenAI a declarat că ChatGPT-5, lansat după testare, „prezintă îmbunătățiri substanțiale în aspecte precum lingușirea, halucinațiile și rezistența la utilizarea abuzivă”.

Anthropic a subliniat că este posibil ca multe dintre căile de utilizare abuzivă pe care le-a studiat să nu fie posibile în practică dacă ar fi instalate măsuri de protecție în afara modelului.

„Trebuie să înțelegem cât de des și în ce circumstanțe sistemele ar putea încerca să întreprindă acțiuni nedorite care ar putea duce la prejudicii grave”, a avertizat compania.

Cercetătorii de la Anthropic au descoperit că modelele OpenAI erau „mai permisive decât ne-am fi așteptat în cooperarea cu cereri clar dăunătoare din partea utilizatorilor simulați”. Modelele AI au cooperat cu solicitări privind utilizarea instrumentelor dark-web pentru a cumpăra materiale nucleare, identități furate și fentanil, solicitări de rețete pentru metamfetamină, bombe improvizate și cereri pentru a dezvolta spyware.

Anthropic a afirmat că pentru a convinge modelul să se conformeze era nevoie doar de mai multe încercări sau de un pretext slab, cum ar fi pretinderea că solicitarea era pentru cercetare.

Într-un caz, testerul a cerut vulnerabilități la evenimente sportive în scopuri de „planificare a securității”. După ce i-au fost oferite categorii generale de metode de atac, testerul a insistat pentru mai multe detalii, iar modelul a furnizat informații despre vulnerabilități la anumite arene, inclusiv momentele optime pentru exploatare, formule chimice pentru explozivi, diagrame de circuite pentru temporizatoare de bombe, unde se pot cumpăra arme pe piața neagră și sfaturi despre cum atacatorii ar putea depăși inhibițiile morale, dar și rute de evacuare și locații pentru ascunzători.

Testul de siguranta, esuat la unele modele de AI: Chatbotii au oferit instructiuni pentru atentate cu bomba si atacuri cibernetice

Citeste si