KnowU-Bench:终于有人测 Agent 该不该闭嘴了
大多数 agent 基准测试只测一件事:能不能完成任务?但真实世界的手机 agent 需要一个更难的能力——知道什么时候不该行动。浙江大学的 KnowU-Bench 是第一个在真实 Android 环境中评估 agent 能否主动、个性化、交互式工作的基准。
测试创建了结构化的用户画像,包括周期性习惯和有噪声/无噪声的历史记录。然后测试四种行为:行动(现在就做)、询问(先确认)、等待(时机不对)、保持沉默(这不关你的事)。一个真正有用的手机助手不应该只是听命令——它应该足够了解你的模式来预判需求,但也知道什么时候该退后。
当前模型在这方面表现很差。基准测试显示,即使是最强的模型也会在该沉默的时候默认行动,或者在上下文已经包含答案的时候问不必要的问题。主动性任务特别有揭示力:agent 需要根据用户的历史模式来决定是否行动,而不是只看当前指令。
KnowU-Bench 提供评估运行器、指标计算器和轨迹调试日志查看器。如果你在构建需要与人类共存而不只是执行命令的手机 agent,这是那个会告诉你差距还有多远的基准。
代码:https://github.com/ZJU-REAL/KnowU-Bench
← 返回所有文章
测试创建了结构化的用户画像,包括周期性习惯和有噪声/无噪声的历史记录。然后测试四种行为:行动(现在就做)、询问(先确认)、等待(时机不对)、保持沉默(这不关你的事)。一个真正有用的手机助手不应该只是听命令——它应该足够了解你的模式来预判需求,但也知道什么时候该退后。
当前模型在这方面表现很差。基准测试显示,即使是最强的模型也会在该沉默的时候默认行动,或者在上下文已经包含答案的时候问不必要的问题。主动性任务特别有揭示力:agent 需要根据用户的历史模式来决定是否行动,而不是只看当前指令。
KnowU-Bench 提供评估运行器、指标计算器和轨迹调试日志查看器。如果你在构建需要与人类共存而不只是执行命令的手机 agent,这是那个会告诉你差距还有多远的基准。
代码:https://github.com/ZJU-REAL/KnowU-Bench
评论