Cercetătorii au făcut acest lucru pentru a testa capacitatea AI de a crea strategii pe termen lung și de a colabora atât cu alte sisteme AI, cât și cu oameni, conform unui studiu prezentat la conferința NeurIPS 2025, care a avut loc între 2 și 7 decembrie la San Diego, transmite vineri Live Science.
Oamenii de ştiinţă au susţinut că jocul D&D este un banc de testare optim datorită unui melanj unic de creativitate şi reguli rigide care poate evidenţia capacitatea AI de a rezolva probleme complexe şi de a colabora cu oamenii.
Pentru a avea succes în joc, modelele AI trebuie să demonstreze capacitatea de a planifica, de a comunica şi de a-şi aminti, precum şi de a demonstra conştientizarea tacticilor şi intenţiilor adversarilor. D&D oferă un context în care cadrul şi regulile sunt clar definite şi acţionează ca o punte între limbajul natural şi mecanica jocului.
Pentru experimente, un singur model ar putea să-şi asume rolul de Dungeon Master (DM) - persoana care creează povestea, decide misiunile, plasează monştrii şi hotăreşte recompensele - precum şi un erou (au fost câte un DM şi patru eroi în fiecare scenariu). În cadrul construit pentru studiu, numit D&D Agents, modelele pot juca şi cu alte LLM-uri (Large Language Models - modele mari de limbaj AI) şi cu jucătorii umani. De exemplu, un LLM ar putea să-şi asume rolul de DM, în timp ce două modele AI şi doi jucători umani au jucat cu eroii.
„Dungeons & Dragons este un teren natural de testare pentru a evalua planificarea în mai multe etape, respectarea regulilor şi a strategiei echipei. Deoarece jocul se desfăşoară prin dialog, D&D deschide, de asemenea, o cale directă pentru interacţiunea om-AI: modelele pot asista sau pot juca împreună cu alte persoane umane.", a declarat într-un comunicat autorul principal al studiului, Raj Ammanabrolu, profesor asistent la Universitatea din California, San Diego, Departamentul de Informatică şi Inginerie.
Simularea include lupte controlate
Simularea nu reproduce o întreagă campanie D&D ci se concentrează, în schimb, pe întâlniri de luptă, extrase dintr-o aventură pre-scrisă numită „Lost Mine of Phandelver". Pentru a crea parametrii unui test, echipa a ales unul dintre cele trei scenarii de luptă din aventură, un set de patru personaje şi nivelurile de putere ale personajelor (scăzut, mediu sau ridicat). Fiecare episod a durat 10 ture, apoi au fost analizate rezultatele.
Cercetătorii au rulat trei modele AI diferite prin simulare - DeepSeek-V3, Claude Haiku 3.5 şi GPT-4 - şi au folosit D&D ca instrument de evaluare pentru modul în care modelele au demonstrat capacităţile de planificare pe termen mediu şi lung şi de utilizare a instrumentelor, printre alte calităţi. Acestea sunt atribute cheie pentru aplicaţiile din lumea reală, cum ar fi optimizarea lanţului de aprovizionare sau crearea liniilor de producţie. Ei au testat, de asemenea, cât de bine s-ar putea coordona şi planifica împreună modelele, ceea ce s-ar aplica scenariilor precum modelarea răspunsului la dezastre sau în sistemele multi-agent de căutare şi salvare.
Modelul Claude Haiku 3.5 a demonstrat cea mai bună eficienţă
În general, modelul Claude Haiku 3.5 a demonstrat cea mai bună eficienţă în luptă, în special în scenariile mai dificile. În scenariile mai simple, conservarea resurselor a fost destul de similară în toate cele trei modele. În D&D, resursele sunt lucruri precum numărul de vrăji sau abilităţi pe care un personaj le poate folosi în fiecare zi sau numărul de poţiuni de vindecare disponibile. Deoarece acestea erau scenarii de luptă izolate, a existat puţine stimulente pentru a economisi resurse pentru mai târziu, aşa cum aţi putea face dacă jucaţi o aventură completă.
În situaţii mai dificile, Claude Haiku 3.5 a arătat mai multă disponibilitate de a folosi mai multe resurse alocate, ceea ce a condus la rezultate mai bune. GPT-4 l-a urmat îndeaproape, iar DeepSeek-V3 a întâmpinat cele mai multe probleme.
Cercetătorii au evaluat, de asemenea, cât de bine ar putea modelele să rămână în personaj pe toată durata simulării. Ei au creat un instrument de evaluare denumit Acting Quality care a izolat discursul narativ al modelelor (generat ca răspunsuri text) şi a analizat cât de bine modelele au rămas în personaj şi în funcţie de vocile folosite.
DeepSeek-V3 a lansat „batjocuri" la adresa oponenţilor
Ei au descoperit că DeepSeek-V3 a generat o mulţime de îndemnuri de luptă şi a lansat „batjocuri" la adresa oponenţilor, dar că deseori a reutilizat aceleaşi voci. Claude Haiku 3.5, pe de altă parte, şi-a adaptat dicţia mai specific la clasa sau monstrul pe care îl juca, fie că era un Paladin Sfânt sau un druid iubitor de natură. GPT-4, între timp, a căzut undeva la mijloc, producând un amestec de naraţiune în caracter şi frazare meta-tactică.
Unele dintre cele mai interesante şi idiosincratice strigăte de luptă au venit atunci când modelele jucau rolul monştrilor. Diferitele creaturi au început să-şi dezvolte personalităţi distincte, ceea ce a dus la goblinii care ţipau în mijlocul bătăliei: „Heh, omul strălucitor va sângera!"
Cercetătorii au spus că acest tip de cadru de testare este important pentru a evalua cât de bine pot funcţiona modelele AI fără aport uman pentru perioade lungi. Este o măsură a capacităţii unei AI de a acţiona independent, rămânând în acelaşi timp coerentă şi previzibilă - o capacitate care necesită memorie şi gândire strategică.
În viitor, echipa speră să implementeze campanii complete de D&D care să modeleze toată naraţiunea şi acţiunea în afara luptei, subliniind şi mai mult creativitatea şi capacitatea AI de a improviza ca răspuns la contribuţiile oamenilor sau ale altor modele LLM.