2026年5月2日Benchmark Agents Research

KellyBench——前沿模型让agent去赌英超，全亏钱

4月30日arXiv上的新benchmark。KellyBench把前沿模型扔进一个模拟的2023-24英超赛季当下注agent。目标：用历史数据、统计、首发阵容、公开赔率，把本金长期最大化。结果：所有模型都亏钱。表现最好的也平均-8%。好几个模型多轮里直接爆仓。

Claude Opus 4.6在人类专家评分卡上只得了26.5%，意思是它的策略跟一个基础人类赌客比起来很不老练。大部分模型做的是查资料-复述，没在找市场失效。明明告诉过它们可以自己搭ML pipeline做预测，没一个真去做。

这是两周内第三篇长程评测论文（Synthetic Computers at Scale、Claw-Eval-Live、KellyBench）。三篇撞到的是同一堵墙：agent在有清晰胜利条件的程序化任务上表现还行；一旦扔到长程、非平稳、目标开放、世界一直在变的环境里就崩。体育博彩刚好是这种环境的干净样本——联赛往前推、赔率变、你第1周的策略到第20周可能就错了。

作者角度有一点值得说：这是第一篇给agent能力缺口贴上财务损失数字的评测论文。"最好的前沿模型亏8%"这种一句话总结，会很快传进交易员的Slack群。任何在跑LLM交易agent的人，在看自家backtest结果太好之前，应该先把这篇方法论部分读一遍。

暂时没公开代码repo——按论文说法是开放API endpoint。arXiv：https://arxiv.org/abs/2604.27865

← 上一篇

Hightouch融1.5亿美元D轮——agentic CDP估值27.5亿

"Contextual Agentic Memory其实不是记忆，是备忘录"——agent根本没在记东西

← 返回所有文章

加载中...

KellyBench——前沿模型让agent去赌英超，全亏钱

相关文章

评论