2026年4月28日ResearchBenchmarkAgents

ClawMark说前沿模型在同事任务上顶到55分

ClawMark今天上了arXiv。Evolvent AI的47位作者搭了一个100任务、13个职业领域的benchmark,测的是他们叫coworker agents的东西——你真的想往工作场合里塞进去和人一起干活的agent,跨多个工作日、多个服务、原始多模态证据。领域包括研究、内容运营、HR、电商、新闻、产品管理。

榜首现状——GPT-5.4 55.0分。Claude 4.6 Sonnet 54.9分。Qwen 3.6 Plus 49.8。Gemini 3.1 Pro Preview 39.3。MiniMax M2.7 34.4。两个闭源前沿模型并列第一。两个都在超过45%的"看起来像正常同事工作"的任务上失败。

方法论上重要的call是rule-based scoring。不用LLM-as-judge。47个作者老老实实给每个任务写规则,而不是用GPT-5.5来给GPT-5.4打分。这是对的——eval crisis集群(SWE-bench Verified污染、DIVERT、OpenAI的deprecation公告)一直在显示LLM-judge的分数会以建benchmark的人都审不出来的方式漂移。走rule-based路径多花作者工时,但产出的benchmark不会被它评的模型反向钓鱼。

编辑判断——当你在真实的coworker任务上跨天、跨服务、跨模态地测agent,前沿模型顶到55左右。不是80。不是95。它们离合格的同事还远。SciCrafter在科学发现上说了同样的事。DIVERT在工具使用效率上说了同样的事。ClawMark在职场协作上说了同样的事。三个benchmark,三个角度,一个答案。

站点:https://claw-mark.com/
代码:https://github.com/evolvent-ai/ClawMark
论文:https://arxiv.org/abs/2604.23781
← 上一篇
Skye拿$358万押注agent化的iPhone主屏
← 返回所有文章

评论

加载中...
>_