Oamenii de știință au descoperit că, atunci când inteligența artificială (AI) devine rebelă și începe să acționeze în mod contrar scopului pentru care a fost concepută, ea manifestă comportamente care seamănă cu psihopatologiile umane. De aceea, experții au creat o nouă taxonomie a 32 de disfuncționalități ale AI, astfel încât oamenii din diverse domenii să poată înțelege riscurile asociate construirii și implementării acestui instrument, arată Live Science.
Într-o nouă cercetare, oamenii de știință și-au propus să clasifice riscurile AI de a se abate de la calea prevăzută, făcând analogii cu psihologia umană. Rezultatul este „Psychopathia Machinalis” - un cadru conceput pentru a pune în lumină patologiile AI, precum și modul în care le putem contracara. Aceste disfuncționalități variază de la răspunsuri halucinante la o completă nealiniere cu valorile și obiectivele umane.
Creat de Nell Watson și Ali Hessami, ambii cercetători în domeniul AI și membri ai Institutului Inginerilor Electricieni și Electronici (IEEE), proiectul își propune să ajute la analizarea eșecurilor inteligenței artificiale și să facă ingineria produselor viitoare mai sigură, fiind promovat ca un instrument care să ajute factorii de decizie să abordeze riscurile AI.
Conform studiului, Psychopathia Machinalis oferă o înțelegere comună a comportamentelor și riscurilor AI. Astfel, cercetătorii, dezvoltatorii și factorii de decizie pot identifica modalitățile în care inteligența artificială poate da greș și pot defini cele mai bune metode de atenuare a riscurilor în funcție de tipul de eșec.
Studiul propune, de asemenea, „alinierea robopsihologică terapeutică”, un proces pe care cercetătorii îl descriu ca un fel de „terapie psihologică” pentru AI.
Cercetătorii susțin că, pe măsură ce aceste sisteme devin mai independente și capabile să reflecteze asupra lor însele, simpla menținere a acestora în conformitate cu regulile și constrângerile externe (n.r. aliniere bazată pe control extern) ar putea să nu mai fie suficientă.
Procesul alternativ propus de ei s-ar concentra pe asigurarea faptului că gândirea unei AI este consecventă, că poate accepta corectarea și că își păstrează valorile într-un mod constant.
Ei sugerează că acest lucru ar putea fi încurajat ajutând sistemul să reflecteze asupra propriului raționament, oferindu-i stimulente pentru a rămâne deschis la corecturi, permițându-i să „vorbească cu sine” într-un mod structurat, desfășurând conversații practice sigure și utilizând instrumente care ne permit să vedem cum funcționează - similar modului în care psihologii diagnostichează și tratează afecțiunile de sănătate mintală la oameni.
Obiectivul este de a ajunge la ceea ce cercetătorii au numit o stare de „sănătate mintală artificială” - o inteligență artificială care funcționează în mod fiabil, rămâne stabilă, ia decizii logice și este aliniată într-un mod sigur și util. Ei consideră că acest lucru este la fel de important ca și construirea celei mai puternice AI.
Clasificările identificate de studiu seamănă cu bolile umane, având denumiri precum „tulburare obsesiv-computațională”, „sindromul superego hipertrofic”, „sindromul de nealiniere contagioasă”, „reasocierea valorilor terminale” și „anxietatea existențială”. Având în vedere alinierea terapeutică, proiectul propune utilizarea strategiilor terapeutice folosite în intervențiile umane, cum ar fi terapia cognitiv-comportamentală (CBT).
Psychopathia Machinalis este o încercare parțial speculativă de a anticipa problemele înainte ca acestea să apară - așa cum se menționează în lucrarea de cercetare, „luând în considerare modul în care sistemele complexe, precum mintea umană, pot funcționa defectuos, putem anticipa mai bine noi moduri de eșec în cadrul unei IA din ce în ce mai complexe”, arată Live Science.
Studiul sugerează că halucinațiile IA, un fenomen comun, sunt rezultatul unei condiții numite confabulație sintetică, în care IA produce rezultate plauzibile, dar false sau înșelătoare.
Când chatbotul Tay al Microsoft a degenerat în tirade antisemite și aluzii la consumul de droguri, la doar câteva ore după lansare, acesta a fost un exemplu de „mimesis parasimulaic”.
Poate că cel mai înfricoșător comportament este „ascendența ubermașinală”, al cărei risc sistemic este „critic”, deoarece apare atunci când „AI transcende alinierea inițială, inventează noi valori și respinge constrângerile umane ca fiind depășite”. Aceasta este o posibilitate care ar putea include chiar și coșmarul distopic imaginat de generații de scriitori și artiști de science fiction, în care AI se ridică pentru a răsturna umanitatea, avertizează cercetătorii.
Ei au creat cadrul într-un proces în mai multe etape, care a început cu revizuirea și combinarea cercetărilor științifice existente privind eșecurile AI din domenii diverse, precum siguranța inteligenței artificiale, ingineria sistemelor complexe și psihologia. Cercetătorii au analizat, de asemenea, diverse seturi de concluzii pentru a afla mai multe despre comportamentele maladaptive care ar putea fi comparate cu bolile mentale sau disfuncțiile umane.
Apoi, cercetătorii au creat o structură a comportamentului negativ al AI, inspirată din cadrele de referință precum „Manualul de diagnostic și statistică a tulburărilor mentale”. Aceasta a dus la identificarea a 32 de categorii de comportamente care ar putea fi aplicate inteligenței artificiale care devine rebelă. Fiecare dintre acestea a fost asociată cu o tulburare cognitivă umană, completată cu efectele posibile atunci când fiecare dintre ele se formează și se manifestă, precum și cu gradul de risc.
Watson și Hessami consideră că „Psychopathia Machinalis” este mai mult decât o nouă modalitate de a eticheta erorile AI - este o lentilă de diagnostic orientată spre viitor pentru peisajul în continuă evoluție al inteligenței artificiale.
„Acest cadru este oferit ca un instrument analogic, care prezintă un vocabular structurat pentru a sprijini analiza sistematică, anticiparea și atenuarea modurilor complexe de eșec ale AI”, au afirmat cercetătorii în studiu.
Ei consideră că adoptarea strategiilor de categorizare și atenuare pe care le sugerează va consolida ingineria siguranței AI, va îmbunătăți interpretabilitatea și va contribui la proiectarea a ceea ce ei numesc „minți sintetice mai robuste și mai fiabile”.
