Dungeons & Dragons postaje poligon za AI agente

January 2026
M	T	W	T	F	S	S
	1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Složena pravila igre “Dungeons & Dragons”, produžene kampanje i potreba za timskim radom idealno su okruženje za procjenu dugoročnih performansi AI agenata pokretanih velikim jezičnim modelima, uvjereni su istraživači Kalifornijskog sveučilišta u San Diegu. Na primjer, dok igraju D&D kao AI agenti, modeli moraju slijediti specifična pravila igre i koordinirati timove igrača, koji se sastoje i od AI agenata i od ljudi.

Prirodni poligon

Eksperimentom, predstavljenim na nedavnoj NeurIPS 2025 konferenciji, istraživači su pokušali riješiti jedan od glavnih izazova procjene performansi LLM-ova: nedostatak mjerila za dugoročne zadatke.

LLM-ovi su modelirali i odigrali 27 različitih scenarija odabranih iz borbenih postavki Goblin Ambush, Kennel in Cragmaw Hideout i Klarg's Cave 📷 Ziyi Zeng, Shengqi Li, Jiajun Xi, Andrew Zhu, Prithviraj Ammanabrolu — LLM-ovi su modelirali i odigrali 27 različitih scenarija odabranih iz borbenih postavki Goblin Ambush, Kennel in Cragmaw Hideout i Klarg’s Cave
Ziyi Zeng, Shengqi Li, Jiajun Xi, Andrew Zhu, Prithviraj Ammanabrolu

“‘D&D je prirodni poligon za procjenu planiranja, pridržavanja pravila i timske strategije. Budući da se igra odvija kroz dijalog, igra otvara izravan put za interakciju čovjeka i umjetne inteligencije: agenti mogu pomagati ili se igrati s drugim ljudima“, objašnjavaju istraživači koji su svoju metodu primijenili na tri LLM-a. Claude 3.5 Haiku pokazao se najboljim i najpouzdanijim, a GPT-4 odmah iza njega. DeepSeek-V3 pokazao je najslabije rezultate.

Neobična ponašanja

U eksperimentu su sva tri LLM-a simulirala igru, a modeli su upareni s game engineom temeljenim na pravilima D&D-a koji je pružao karte i resurse za igrače te djelovao kao zaštita za minimiziranje halucinacija. Modeli su igrali jedni protiv drugih i protiv više od 2000 iskusnih D&D igrača. LLM-ovi su modelirali i odigrali 27 različitih scenarija iz borbenih postavki Goblin Ambush, Kennel in Cragmaw Hideout i Klarg’s Cave.

Claude 3.5 Haiku pokazao se najboljim i najpouzdanijim, a GPT-4 odmah iza njega. DeepSeek-V3 pokazao je najslabije rezultate 📷 Ziyi Zeng, Shengqi Li, Jiajun Xi, Andrew Zhu, Prithviraj Ammanabrolu — Claude 3.5 Haiku pokazao se najboljim i najpouzdanijim, a GPT-4 odmah iza njega. DeepSeek-V3 pokazao je najslabije rezultate
Ziyi Zeng, Shengqi Li, Jiajun Xi, Andrew Zhu, Prithviraj Ammanabrolu

U tom procesu, modeli su pokazivali neobična ponašanja: Goblini su počeli razvijati osobnost usred borbe, provocirajući protivnike besmislenim izjavama; Paladini su u borbi držali herojske govore, a Warlockovi su postajali izrazito dramatični, čak i u svakodnevnim situacijama.

Istraživači nisu sigurni što je uzrokovalo takvo ponašanje, ali to smatraju znakom da su modeli pokušavali igri dodati teksturu i osobnost. Sljedeći koraci uključuju simuliranje punih D&D kampanja. A sama bi se metoda, kažu, mogla primijeniti i na druge scenarije, od planiranja poslovnih strategija do višestranačkih pregovora.

Datum i vrijeme objave: 20.01.2026 – 14:27 sati

Izvor:
www.bug.hr

TRAGEDIJA NA ELBRUSU: Pronađena tijela i preostale trojice bh. planinara, spasioci vode borbu s nevremenom

Hezonja se vraća u NBA, potpisao za Cleveland

Počiteljski tamburaši oduševili publiku na Mostarskom ljetu 2026

Zbog pucnjave u centru grada potvrđena optužnica protiv P. Janjića (17474)

Nakon pokušaja ubistva policajca Određen jednomjesečni pritvor S.M. (Brčko, 8…

Afroamerička zajednica poziva Bidena da prekine transfer oružja Izraelu | SAD Vijesti

KONTAKT

BILTEN

Prijavi se za Bilten