2026年7月5日Research Benchmark Agents

要测agent记忆，他们让它去打《杀戮尖塔》

AgenticSTS是近来见过最干净的一个agent记忆实验，而且测试台是一个卡牌构筑游戏。团队把LLM agent丢到《杀戮尖塔2》面前——一个每局要做上百个战术和战略决策的随机卡牌游戏——然后问一个很简单的问题：给agent加一层显式记忆，到底真能让它打得更好，还是只是感觉上应该更好？

关键是那个有界契约。不是把过去每一回合都塞回prompt里直到堆成一团没法读的东西，而是每个决策都拿到一条现场组装的消息，由类型化检索生成——只把相关的记忆精确取出来，别的不要。不管这局打多久，prompt始终是有界的。正是这个约束，让他们能一次干净地消融一个记忆组件，而这恰恰是所有人把整段历史一股脑塞进去时做不到的。

结果说得很实在：开着战略skill层，agent十局赢六局；没记忆的基线十局赢三局。他们自己标注这是方向性的，在这个样本量下统计上并不决定性——这是正确的汇报方式，而且比它应该有的更少见。给个参照：一个公开基准在最低难度下是零胜，人类胜率是16%。

为什么用游戏很重要：《杀戮尖塔》是长周期的、随机的、不留情面的——它专门惩罚那种三回合前就忘了自己计划的agent，而这正是真实agent在真实长任务上会犯的错。他们放出了298条打了标签的轨迹、冻结快照和分析脚本，你是真能复现的。agent记忆这两个月全是产品发布和感觉，这个人在造一把尺子。

链接：arxiv.org/abs/2607.02255

← 上一篇

GLM-5.2跑在AMD上，成本只有英伟达一半

超级用户日报: 2026年7月5日

← 返回所有文章

加载中...

要测agent记忆，他们让它去打《杀戮尖塔》

相关文章

评论