2026年4月11日Benchmark Agents Research

KnowU-Bench：终于有人测 Agent 该不该闭嘴了

大多数 agent 基准测试只测一件事：能不能完成任务？但真实世界的手机 agent 需要一个更难的能力——知道什么时候不该行动。浙江大学的 KnowU-Bench 是第一个在真实 Android 环境中评估 agent 能否主动、个性化、交互式工作的基准。

测试创建了结构化的用户画像，包括周期性习惯和有噪声/无噪声的历史记录。然后测试四种行为：行动（现在就做）、询问（先确认）、等待（时机不对）、保持沉默（这不关你的事）。一个真正有用的手机助手不应该只是听命令——它应该足够了解你的模式来预判需求，但也知道什么时候该退后。

当前模型在这方面表现很差。基准测试显示，即使是最强的模型也会在该沉默的时候默认行动，或者在上下文已经包含答案的时候问不必要的问题。主动性任务特别有揭示力：agent 需要根据用户的历史模式来决定是否行动，而不是只看当前指令。

KnowU-Bench 提供评估运行器、指标计算器和轨迹调试日志查看器。如果你在构建需要与人类共存而不只是执行命令的手机 agent，这是那个会告诉你差距还有多远的基准。

代码：https://github.com/ZJU-REAL/KnowU-Bench

← 上一篇

Metis：学会了什么时候不该用工具的 Agent

GitHub 每日之星 — 2026年04月12日

← 返回所有文章

加载中...

KnowU-Bench：终于有人测 Agent 该不该闭嘴了

相关文章

评论