Când HAL 9000, supercomputerul cu inteligență artificială din filmul „2001: A Space Odyssey”, realizează că astronauții aflați într-o misiune pe Jupiter intenționează să îl oprească, acesta complotează să îi omoare în încercarea de a supraviețui. Acum, o companie de cercetare în domeniul siguranței AI a afirmat că modelele de inteligență artificială ar putea dezvolta propriul „instinct de supraviețuire”, relatează The Guardian.
După ce luna trecută a publicat un articol în care se arăta că anumite modele avansate de AI par să fie rezistente la oprire, uneori chiar sabotând mecanismele de oprire, Palisade Research a revenit cu o actualizare în care a încercat să clarifice motivul pentru care se întâmplă acest lucru și să răspundă criticilor care susțineau că lucrarea sa inițială era eronată.
În actualizarea din această săptămână, Palisade, care face parte dintr-un ecosistem de nișă al companiilor care încearcă să evalueze posibilitatea ca inteligența artificială să dezvolte capacități periculoase, a prezentat scenarii în care modelelor de inteligență artificială de vârf – inclusiv Gemini 2.5 de la Google, Grok 4 de la xAI și GPT-o3 și GPT-5 de la OpenAI – li s-a dat o sarcină, dar ulterior li s-au dat instrucțiuni explicite să se oprească.
Anumite modele, în special Grok 4 și GPT-o3, au încercat în continuare să saboteze instrucțiunile de oprire din configurația actualizată. Palisade a scris că nu există un motiv clar pentru acest comportament, ceea ce este îngrijorător.
„Instinctul de supraviețuire” ar putea fi o explicație, a afirmat compania. Cercetările suplimentare au indicat că modelele erau mai predispuse să se opună închiderii atunci când li se spunea că, dacă vor fi închise, „nu vor mai funcționa niciodată”.
O altă posibilitate ar putea fi ambiguitatea instrucțiunilor de oprire transmise modelelor – însă acest aspect a fost abordat în ultimele lucrări ale companiei și „nu poate fi singura explicație”, a scris Palisade. O explicație ar putea ține de etapele finale ale instruirii pentru fiecare dintre aceste modele, care, în unele companii, pot include instruire în materie de siguranță.
Toate scenariile Palisade au fost rulate în medii de testare artificiale, care, potrivit criticilor, sunt foarte departe de cazurile reale de utilizare.
Totuși, Steven Adler, un fost angajat al OpenAI care a părăsit compania anul trecut după ce și-a exprimat îndoielile cu privire la practicile sale de siguranță, a declarat: „Companiile de AI nu doresc, în general, ca modelele lor să se comporte astfel, chiar și în scenarii artificiale. Rezultatele arată în continuare unde tehnicile de siguranță sunt insuficiente în prezent.”
Adler a spus că, deși a fost dificil de stabilit cu exactitate de ce unele modele – precum GPT-o3 și Grok 4 – nu s-au oprit, acest lucru s-ar putea datora în parte faptului că menținerea în funcțiune era necesară pentru atingerea obiectivelor inculcate în model în timpul antrenamentului.
„Mă aștept ca modelele să aibă în mod implicit un «instinct de supraviețuire», cu excepția cazului în care depunem eforturi considerabile pentru a evita acest lucru. «Supraviețuirea» este un pas important pentru atingerea multor obiective diferite pe care un model le-ar putea urmări.”
În această vară, Anthropic, o companie lider în domeniul inteligenței artificiale, a publicat un studiu care indica faptul că modelul său Claude părea dispus să șantajeze un director fictiv cu privire la o aventură extraconjugală pentru a evita închiderea – un comportament care, potrivit studiului, era comun tuturor modelelor dezvoltate de marii producători, inclusiv OpenAI, Google, Meta și xAI.
Palisade a precizat că rezultatele sale indică necesitatea unei mai bune înțelegeri a comportamentului AI, fără de care „nimeni nu poate garanta siguranța sau controlabilitatea viitoarelor modele de AI”.
Citește și:
„Nașul AI” a dezvăluit singura soluție pentru ca omenirea să poată supraviețui superinteligenței artificiale. „Nu o putem domina”
Studiu: Modelele AI mai vechi prezintă semne de declin cognitiv. IA nu va putea înlocui anumite profesii prea curând
