2026年4月25日Benchmark Research Coding

LamBench:120 道 lambda 演算题把模型分成了悬崖两边

Victor Taelin 发了 LamBench,HN 10 小时投到首页。Benchmark 残忍而简单。120 道 lambda 演算编程题,模型必须输出能跑通测试的 .lam 程序,分数就是通过率。十二个类别从算术到数独到 FFT,总共 1200 道。

结果页读起来像两个时代的分界线。GPT-5.3 Codex 和 Opus 4.6 都拿了 108/120,90%。Opus 4.7 和 Gemini 3.1 Pro 紧跟在后,88.3%。然后是悬崖。GPT-5.1、Opus 4.5、Sonnet 4.5 全部零分。不是分数低,是零。Lambda 演算推理在 2026 是二选一。

这种 benchmark 之所以一直好用,就是因为没法暴力刷。Lambda 演算没有库可以 import,没有 Stack Overflow 语料,没有外挂。你要么真的理解 lambda 编码,要么连一道题都过不了。所以它比 SWE-Bench 更干净地区分真推理和模式匹配。

对做 agent 的人来说一个直接结论:你给 agent 选 sub-model 的时候,Opus 4.6 和 Opus 4.5 的差距不是个小数字,是一堵墙。LamBench 比 SWE-Bench 更诚实地告诉你简单任务路由便宜模型这套方案的真实代价。

实时榜单:https://victortaelin.github.io/lambench/

← 上一篇

Matt Pocock 的 skills 仓库一夜涨到 19.8K star

OpenAI 这 2.5 万美元生物 bug bounty 把别人不敢说的话说出来了

← 返回所有文章

加载中...

LamBench:120 道 lambda 演算题把模型分成了悬崖两边

相关文章

评论