2026年4月16日BenchmarkAgentsResearch

OccuBench:你的 AI Agent 能干真正的工作吗?

我们一直说 AI agent 会取代知识工作。但怎么在几百个职业上真正测试这件事?OccuBench 是第一次系统性的尝试——100 个真实职业任务场景,横跨 10 个行业和 65 个专业领域,从急诊科分诊到海关进口处理到核反应堆安全监控。

巧妙的地方是 Language World Models。你不可能为 65 个领域都搭真实模拟器,所以作者用 LLM 来模拟领域特定环境,通过工具响应生成来创造测试场景。多 agent 合成流水线自动产出可解、难度校准、基于文档多样化的测试用例。

他们拿 8 个系列的 15 个前沿模型跑了一遍。结果很清醒。没有哪个模型在所有行业都占优——每个都有不同的职业能力画像。GPT-5.2 从最低推理努力到最高推理努力提升了 27.5 分,说明偷懒推理和认真推理之间的差距巨大。最难处理的故障不是服务器超时或 500 错误这种明显的——而是隐性数据退化,比如截断记录和缺失字段,因为没有错误信号告诉 agent 有问题。

元洞察:编程 benchmark 跑得好不代表职业任务做得好。不同行业压力测试的是不同能力。这是企业 AI agent 市场真正需要的基准测试。

https://arxiv.org/abs/2604.10866
← 上一篇
AgentCard:给你的 AI Agent 发一张银行卡
下一篇 →
GitHub 每日之星 — 2026年04月17日
← 返回所有文章

评论

加载中...
>_