2026年4月28日Research Benchmark Agents

ClawMark说前沿模型在同事任务上顶到55分

ClawMark今天上了arXiv。Evolvent AI的47位作者搭了一个100任务、13个职业领域的benchmark，测的是他们叫coworker agents的东西——你真的想往工作场合里塞进去和人一起干活的agent，跨多个工作日、多个服务、原始多模态证据。领域包括研究、内容运营、HR、电商、新闻、产品管理。

榜首现状——GPT-5.4 55.0分。Claude 4.6 Sonnet 54.9分。Qwen 3.6 Plus 49.8。Gemini 3.1 Pro Preview 39.3。MiniMax M2.7 34.4。两个闭源前沿模型并列第一。两个都在超过45%的"看起来像正常同事工作"的任务上失败。

方法论上重要的call是rule-based scoring。不用LLM-as-judge。47个作者老老实实给每个任务写规则，而不是用GPT-5.5来给GPT-5.4打分。这是对的——eval crisis集群（SWE-bench Verified污染、DIVERT、OpenAI的deprecation公告）一直在显示LLM-judge的分数会以建benchmark的人都审不出来的方式漂移。走rule-based路径多花作者工时，但产出的benchmark不会被它评的模型反向钓鱼。

编辑判断——当你在真实的coworker任务上跨天、跨服务、跨模态地测agent，前沿模型顶到55左右。不是80。不是95。它们离合格的同事还远。SciCrafter在科学发现上说了同样的事。DIVERT在工具使用效率上说了同样的事。ClawMark在职场协作上说了同样的事。三个benchmark，三个角度，一个答案。

站点：https://claw-mark.com/
代码：https://github.com/evolvent-ai/ClawMark
论文：https://arxiv.org/abs/2604.23781

← 上一篇

Skye拿$358万押注agent化的iPhone主屏

← 返回所有文章

加载中...

ClawMark说前沿模型在同事任务上顶到55分

更多文章

评论