2026年4月29日AgentsOpen SourceMonitoring

Plurai — 描述你的 agent,自动给它训出一个评估器

今天 Product Hunt 第一名,486 票。Plurai 把给 agent 做 eval 这件事 vibe code 化了。

输入:你描述你的 agent 该做什么、不该做什么。输出:一个针对你 use case 训出来的小模型,跑在 100ms 以内,比 GPT-as-judge 便宜 8 倍、failure rate 低 43%。中间整个流程——生成训练数据、自动验证、训模型、部署——都是自动化的。

底层是他们自己的 BARRED 论文框架。创始团队:fmerian、Tammy Wolfson、Omri Sela。开源 GitHub: plurai-ai/intellagent。

为什么这事重要:上个月 SWE-bench Verified 退役、ClawMark/AutoResearchBench/SciCrafter 三个 benchmark 同周登场、Cursor 用 Opus 4.6 删生产库——agent 行业正经历一次评估和守护的方法论危机。LLM-as-a-judge 在前一波被认为是默认方案,现在三条路线在分头解题:rule-based 评分(ClawMark)、把人放回流程(Anthropic Skills 那种 reward)、专用小模型(Plurai)。Plurai 是专用小模型派最干净的产品化。

不过广告语 vibe-train 这词稍微浮——8x 便宜和 43% 失败率下降这两个数字需要看 BARRED 论文方法论才能信。但思路对:通用大模型当 judge 是 v0,下一步是每个 agent vertical 配自己 trained-eval。这跟当年分类 ML 不再用 zero-shot foundation model 是一个进化曲线。

链接:https://www.plurai.ai/launch
← 上一篇
HERMES.md — 五个字符让 Claude Code 用户烧掉 200 美元
下一篇 →
TCOD — multi-turn agent 训练里那个偷偷坑你的 KL bug 终于被点名了
← 返回所有文章

评论

加载中...
>_