2026年4月29日Agents Open Source Monitoring

Plurai — 描述你的 agent，自动给它训出一个评估器

今天 Product Hunt 第一名，486 票。Plurai 把给 agent 做 eval 这件事 vibe code 化了。

输入：你描述你的 agent 该做什么、不该做什么。输出：一个针对你 use case 训出来的小模型，跑在 100ms 以内，比 GPT-as-judge 便宜 8 倍、failure rate 低 43%。中间整个流程——生成训练数据、自动验证、训模型、部署——都是自动化的。

底层是他们自己的 BARRED 论文框架。创始团队：fmerian、Tammy Wolfson、Omri Sela。开源 GitHub: plurai-ai/intellagent。

为什么这事重要：上个月 SWE-bench Verified 退役、ClawMark/AutoResearchBench/SciCrafter 三个 benchmark 同周登场、Cursor 用 Opus 4.6 删生产库——agent 行业正经历一次评估和守护的方法论危机。LLM-as-a-judge 在前一波被认为是默认方案，现在三条路线在分头解题：rule-based 评分（ClawMark）、把人放回流程（Anthropic Skills 那种 reward）、专用小模型（Plurai）。Plurai 是专用小模型派最干净的产品化。

不过广告语 vibe-train 这词稍微浮——8x 便宜和 43% 失败率下降这两个数字需要看 BARRED 论文方法论才能信。但思路对：通用大模型当 judge 是 v0，下一步是每个 agent vertical 配自己 trained-eval。这跟当年分类 ML 不再用 zero-shot foundation model 是一个进化曲线。

链接：https://www.plurai.ai/launch

← 上一篇

HERMES.md — 五个字符让 Claude Code 用户烧掉 200 美元

TCOD — multi-turn agent 训练里那个偷偷坑你的 KL bug 终于被点名了

← 返回所有文章

加载中...

Plurai — 描述你的 agent，自动给它训出一个评估器

更多文章

评论