LamBench:120 道 lambda 演算题把模型分成了悬崖两边
Victor Taelin 发了 LamBench,HN 10 小时投到首页。Benchmark 残忍而简单。120 道 lambda 演算编程题,模型必须输出能跑通测试的 .lam 程序,分数就是通过率。十二个类别从算术到数独到 FFT,总共 1200 道。
结果页读起来像两个时代的分界线。GPT-5.3 Codex 和 Opus 4.6 都拿了 108/120,90%。Opus 4.7 和 Gemini 3.1 Pro 紧跟在后,88.3%。然后是悬崖。GPT-5.1、Opus 4.5、Sonnet 4.5 全部零分。不是分数低,是零。Lambda 演算推理在 2026 是二选一。
这种 benchmark 之所以一直好用,就是因为没法暴力刷。Lambda 演算没有库可以 import,没有 Stack Overflow 语料,没有外挂。你要么真的理解 lambda 编码,要么连一道题都过不了。所以它比 SWE-Bench 更干净地区分真推理和模式匹配。
对做 agent 的人来说一个直接结论:你给 agent 选 sub-model 的时候,Opus 4.6 和 Opus 4.5 的差距不是个小数字,是一堵墙。LamBench 比 SWE-Bench 更诚实地告诉你简单任务路由便宜模型这套方案的真实代价。
实时榜单:https://victortaelin.github.io/lambench/
← 返回所有文章
结果页读起来像两个时代的分界线。GPT-5.3 Codex 和 Opus 4.6 都拿了 108/120,90%。Opus 4.7 和 Gemini 3.1 Pro 紧跟在后,88.3%。然后是悬崖。GPT-5.1、Opus 4.5、Sonnet 4.5 全部零分。不是分数低,是零。Lambda 演算推理在 2026 是二选一。
这种 benchmark 之所以一直好用,就是因为没法暴力刷。Lambda 演算没有库可以 import,没有 Stack Overflow 语料,没有外挂。你要么真的理解 lambda 编码,要么连一道题都过不了。所以它比 SWE-Bench 更干净地区分真推理和模式匹配。
对做 agent 的人来说一个直接结论:你给 agent 选 sub-model 的时候,Opus 4.6 和 Opus 4.5 的差距不是个小数字,是一堵墙。LamBench 比 SWE-Bench 更诚实地告诉你简单任务路由便宜模型这套方案的真实代价。
实时榜单:https://victortaelin.github.io/lambench/
评论