OccuBench:你的 AI Agent 能干真正的工作吗?
我们一直说 AI agent 会取代知识工作。但怎么在几百个职业上真正测试这件事?OccuBench 是第一次系统性的尝试——100 个真实职业任务场景,横跨 10 个行业和 65 个专业领域,从急诊科分诊到海关进口处理到核反应堆安全监控。
巧妙的地方是 Language World Models。你不可能为 65 个领域都搭真实模拟器,所以作者用 LLM 来模拟领域特定环境,通过工具响应生成来创造测试场景。多 agent 合成流水线自动产出可解、难度校准、基于文档多样化的测试用例。
他们拿 8 个系列的 15 个前沿模型跑了一遍。结果很清醒。没有哪个模型在所有行业都占优——每个都有不同的职业能力画像。GPT-5.2 从最低推理努力到最高推理努力提升了 27.5 分,说明偷懒推理和认真推理之间的差距巨大。最难处理的故障不是服务器超时或 500 错误这种明显的——而是隐性数据退化,比如截断记录和缺失字段,因为没有错误信号告诉 agent 有问题。
元洞察:编程 benchmark 跑得好不代表职业任务做得好。不同行业压力测试的是不同能力。这是企业 AI agent 市场真正需要的基准测试。
https://arxiv.org/abs/2604.10866
← 返回所有文章
巧妙的地方是 Language World Models。你不可能为 65 个领域都搭真实模拟器,所以作者用 LLM 来模拟领域特定环境,通过工具响应生成来创造测试场景。多 agent 合成流水线自动产出可解、难度校准、基于文档多样化的测试用例。
他们拿 8 个系列的 15 个前沿模型跑了一遍。结果很清醒。没有哪个模型在所有行业都占优——每个都有不同的职业能力画像。GPT-5.2 从最低推理努力到最高推理努力提升了 27.5 分,说明偷懒推理和认真推理之间的差距巨大。最难处理的故障不是服务器超时或 500 错误这种明显的——而是隐性数据退化,比如截断记录和缺失字段,因为没有错误信号告诉 agent 有问题。
元洞察:编程 benchmark 跑得好不代表职业任务做得好。不同行业压力测试的是不同能力。这是企业 AI agent 市场真正需要的基准测试。
https://arxiv.org/abs/2604.10866
评论