Studiul, realizat de Mass General Brigham din Massachusetts şi publicat în Jama Network Open, a testat modelele de inteligenţă artificială folosind 29 de viniete clinice bazate pe texte medicale de referinţă.
În cadrul studiului, chatboţilor le-au fost oferite pas cu pas informaţii medicale legate de o boală, inclusiv constatări ale consultaţiilor şi rezultate ale analizelor de laborator.
Au fost astfel testate 21 de modele lingvistice, inclusiv cele dezvoltate de OpenAI, Anthropic, Google, xAI şi DeepSeek.
Specialiştii au descoperit că toate modelele dau diagnostice greşite în peste 80 de cazurile în care nu au acces la informaţiile incomplete ale pacienţilor.
Nici când au avut toate informaţiile, chatboţi nu au s-au descurcat grozav, având şi în aceste cazuri o rată a erorilor de peste 40%. În aceste situaţii, însă, au existat cazuri în care unii chatboţii au oferit diagnosticul corect pentru 90% dintre pacienţi.
Concluzia experţilor este că performanţa chatboţilor de AI pe partea medicală depinde de volumul informaţiilor, dar chiar şi când le sunt oferite informaţii complete, aceştia pot induce utilizatorii în eroare.
Asta pentru că toate modelele lingvistice actuale suferă de aşa-numite halucinaţii, adică inventează informaţii atunci când trebuie să dea un răspuns fără aibă o soluţie clară.