2026年5月3日AgentsBenchmarkTool

hnup.date:用HN评论给coding模型排名

Hacker News上有人写了个工具:抓200条每日热门帖,筛50条关于LLM和coding的,让Gemini过一遍评论提取模型名和情绪,然后把结果publish到Google Sheet。输出是个10天滚动的top-10榜单,告诉你HN群众真心爱用和真心嫌弃哪些coding模型。今天上了首页,109分。

这种东西本来该是学术benchmark干的活,但学术benchmark一接触现实就崩。OpenAI 4月把SWE-Bench Verified废了。Tool Attention那篇论文显示长horizon上准确率断崖式下降。WindowsWorld显示跨app推理坏掉。过去一个月agent eval危机已经产出16个产品和论文,但行业离一个能被信任的benchmark还很远。

于是现在我们有了HN评论情绪当benchmark。公开Google Sheet可审计:每条评论ID、每个被提到的模型、每条情绪分类都能查。比搭真harness快,可能比leaderboard还诚实。一个agent eval最后以这种形式落地,本身就告诉你这个field现在卡在哪儿。

作者把方法论公开了。Gemini情绪分类是可能出错的那一层,但原始提及是可审的。如果Anthropic或者OpenAI发了个leaderboard顶端的模型在hnup.date上分很低,这个gap才是真正值得关注的信号。

网站:https://hnup.date/hn-sota
← 上一篇
Specsmaxxing:别再写prompt了 写spec吧
← 返回所有文章

评论

加载中...
>_