要测agent记忆,他们让它去打《杀戮尖塔》
AgenticSTS是近来见过最干净的一个agent记忆实验,而且测试台是一个卡牌构筑游戏。团队把LLM agent丢到《杀戮尖塔2》面前——一个每局要做上百个战术和战略决策的随机卡牌游戏——然后问一个很简单的问题:给agent加一层显式记忆,到底真能让它打得更好,还是只是感觉上应该更好?
关键是那个有界契约。不是把过去每一回合都塞回prompt里直到堆成一团没法读的东西,而是每个决策都拿到一条现场组装的消息,由类型化检索生成——只把相关的记忆精确取出来,别的不要。不管这局打多久,prompt始终是有界的。正是这个约束,让他们能一次干净地消融一个记忆组件,而这恰恰是所有人把整段历史一股脑塞进去时做不到的。
结果说得很实在:开着战略skill层,agent十局赢六局;没记忆的基线十局赢三局。他们自己标注这是方向性的,在这个样本量下统计上并不决定性——这是正确的汇报方式,而且比它应该有的更少见。给个参照:一个公开基准在最低难度下是零胜,人类胜率是16%。
为什么用游戏很重要:《杀戮尖塔》是长周期的、随机的、不留情面的——它专门惩罚那种三回合前就忘了自己计划的agent,而这正是真实agent在真实长任务上会犯的错。他们放出了298条打了标签的轨迹、冻结快照和分析脚本,你是真能复现的。agent记忆这两个月全是产品发布和感觉,这个人在造一把尺子。
链接:arxiv.org/abs/2607.02255
← 返回所有文章
关键是那个有界契约。不是把过去每一回合都塞回prompt里直到堆成一团没法读的东西,而是每个决策都拿到一条现场组装的消息,由类型化检索生成——只把相关的记忆精确取出来,别的不要。不管这局打多久,prompt始终是有界的。正是这个约束,让他们能一次干净地消融一个记忆组件,而这恰恰是所有人把整段历史一股脑塞进去时做不到的。
结果说得很实在:开着战略skill层,agent十局赢六局;没记忆的基线十局赢三局。他们自己标注这是方向性的,在这个样本量下统计上并不决定性——这是正确的汇报方式,而且比它应该有的更少见。给个参照:一个公开基准在最低难度下是零胜,人类胜率是16%。
为什么用游戏很重要:《杀戮尖塔》是长周期的、随机的、不留情面的——它专门惩罚那种三回合前就忘了自己计划的agent,而这正是真实agent在真实长任务上会犯的错。他们放出了298条打了标签的轨迹、冻结快照和分析脚本,你是真能复现的。agent记忆这两个月全是产品发布和感觉,这个人在造一把尺子。
链接:arxiv.org/abs/2607.02255
评论