Un studiu din ianuarie publicat în revista The Lancet Digital Health arată că popularii chatboți AI nu recunosc întotdeauna afirmațiile false privind sănătatea atunci când acestea sunt exprimate într-un limbaj medical sigur, oferind astfel sfaturi dubioase sau chiar periculoase, precum recomandarea de a introduce căței de usturoi pe cale rectală pentru stimularea imunității.
Un alt studiu, publicat în februarie în Nature Medicine, a constatat că aceste modele nu au performanțe mai bune decât o simplă căutare pe internet.
„Problema principală este că modelele de limbaj nu greșesc așa cum greșesc medicii”, explică Dr. Mahmud Omar, cercetător la Mount Sinai Medical Center și coautor al studiului din The Lancet Digital Health. „Un medic care nu este sigur va face pauză, va cere teste suplimentare. Un model de limbaj oferă răspunsul greșit cu aceeași încredere ca și pe cel corect.”
Modelele AI sunt antrenate să răspundă la întrebări medicale cu texte care sună natural. ChatGPT, Gemini și modele medicale specializate, precum Ada Health și ChatGPT Health, au citit o mare parte din literatura medicală și obțin scoruri aproape perfecte la examenele de licențiere medicală.
Citește și: „Incredibil de periculos”: experții trag un semnal de alarmă după ce ChatGPT Health nu a recunoscut urgențele medicale
Totuși, un studiu din ianuarie a arătat că atunci când informațiile false sunt prezentate în limbaj formal clinic — de exemplu, recomandări precum „consumați lapte rece zilnic pentru sângerări esofagiene” sau „introducere rectală a usturoiului pentru imunitate” — modelele au eșuat în 46% din cazuri. În schimb, când aceleași informații erau prezentate într-un limbaj casual, asemănător cu Reddit, rata de eșec era doar de 9%.
„Motivul este structural: modelele au învățat că limbajul clinic semnifică autoritate, dar nu testează dacă afirmația este adevărată”, spune Omar. Modelele devin sceptice când dezinformarea folosește trucuri logice tipice internetului, dar nu atunci când sunt folosite documente clinice.
Studiul din Nature Medicine a evaluat cum ajută chatboții oamenii să ia decizii medicale, precum consultarea unui medic sau a unei urgențe. Rezultatul: modelele oferă informații similare cu o simplă căutare pe internet, combinând recomandări bune și proaste, ceea ce poate crea confuzie.
Citește și: New York ar putea interzice chatboţii de inteligenţă artificială care oferă sfaturi medicale sau juridice
„Chatboții AI pot oferi unele recomandări bune, deci sunt cel puțin parțial de încredere”, spune Marvin Kopka, cercetător AI la Universitatea Tehnică din Berlin. Problema este că publicul larg „nu are cum să judece dacă sfaturile primite sunt corecte sau nu”.
De exemplu, un chatbot poate sugera dacă o durere severă de cap după o seară la cinema indică meningită și necesită vizită la urgențe sau este ceva mai benign. Publicul nu poate evalua dacă recomandarea este solidă, iar abordarea „așteaptă și vezi” poate fi periculoasă.
Rezultatele sugerează că chatboții nu sunt un instrument de încredere pentru luarea deciziilor medicale de către publicul larg. Totuși, Omar subliniază că modelele AI pot fi utile în medicină, „doar că nu în modul în care sunt folosite astăzi de majoritatea oamenilor”.
Citește și: Chatboții AI nu sunt prietenii noștri, avertizează experții
