KellyBench——前沿模型让agent去赌英超,全亏钱
4月30日arXiv上的新benchmark。KellyBench把前沿模型扔进一个模拟的2023-24英超赛季当下注agent。目标:用历史数据、统计、首发阵容、公开赔率,把本金长期最大化。结果:所有模型都亏钱。表现最好的也平均-8%。好几个模型多轮里直接爆仓。
Claude Opus 4.6在人类专家评分卡上只得了26.5%,意思是它的策略跟一个基础人类赌客比起来很不老练。大部分模型做的是查资料-复述,没在找市场失效。明明告诉过它们可以自己搭ML pipeline做预测,没一个真去做。
这是两周内第三篇长程评测论文(Synthetic Computers at Scale、Claw-Eval-Live、KellyBench)。三篇撞到的是同一堵墙:agent在有清晰胜利条件的程序化任务上表现还行;一旦扔到长程、非平稳、目标开放、世界一直在变的环境里就崩。体育博彩刚好是这种环境的干净样本——联赛往前推、赔率变、你第1周的策略到第20周可能就错了。
作者角度有一点值得说:这是第一篇给agent能力缺口贴上财务损失数字的评测论文。"最好的前沿模型亏8%"这种一句话总结,会很快传进交易员的Slack群。任何在跑LLM交易agent的人,在看自家backtest结果太好之前,应该先把这篇方法论部分读一遍。
暂时没公开代码repo——按论文说法是开放API endpoint。arXiv:https://arxiv.org/abs/2604.27865
← 返回所有文章
Claude Opus 4.6在人类专家评分卡上只得了26.5%,意思是它的策略跟一个基础人类赌客比起来很不老练。大部分模型做的是查资料-复述,没在找市场失效。明明告诉过它们可以自己搭ML pipeline做预测,没一个真去做。
这是两周内第三篇长程评测论文(Synthetic Computers at Scale、Claw-Eval-Live、KellyBench)。三篇撞到的是同一堵墙:agent在有清晰胜利条件的程序化任务上表现还行;一旦扔到长程、非平稳、目标开放、世界一直在变的环境里就崩。体育博彩刚好是这种环境的干净样本——联赛往前推、赔率变、你第1周的策略到第20周可能就错了。
作者角度有一点值得说:这是第一篇给agent能力缺口贴上财务损失数字的评测论文。"最好的前沿模型亏8%"这种一句话总结,会很快传进交易员的Slack群。任何在跑LLM交易agent的人,在看自家backtest结果太好之前,应该先把这篇方法论部分读一遍。
暂时没公开代码repo——按论文说法是开放API endpoint。arXiv:https://arxiv.org/abs/2604.27865
评论