2026年5月3日Agents Benchmark Tool

hnup.date：用HN评论给coding模型排名

Hacker News上有人写了个工具：抓200条每日热门帖，筛50条关于LLM和coding的，让Gemini过一遍评论提取模型名和情绪，然后把结果publish到Google Sheet。输出是个10天滚动的top-10榜单，告诉你HN群众真心爱用和真心嫌弃哪些coding模型。今天上了首页，109分。

这种东西本来该是学术benchmark干的活，但学术benchmark一接触现实就崩。OpenAI 4月把SWE-Bench Verified废了。Tool Attention那篇论文显示长horizon上准确率断崖式下降。WindowsWorld显示跨app推理坏掉。过去一个月agent eval危机已经产出16个产品和论文，但行业离一个能被信任的benchmark还很远。

于是现在我们有了HN评论情绪当benchmark。公开Google Sheet可审计：每条评论ID、每个被提到的模型、每条情绪分类都能查。比搭真harness快，可能比leaderboard还诚实。一个agent eval最后以这种形式落地，本身就告诉你这个field现在卡在哪儿。

作者把方法论公开了。Gemini情绪分类是可能出错的那一层，但原始提及是可审的。如果Anthropic或者OpenAI发了个leaderboard顶端的模型在hnup.date上分很低，这个gap才是真正值得关注的信号。

网站：https://hnup.date/hn-sota

← 上一篇

Specsmaxxing：别再写prompt了写spec吧

← 返回所有文章

加载中...

hnup.date：用HN评论给coding模型排名

更多文章

评论