Plurai — 描述你的 agent,自动给它训出一个评估器
今天 Product Hunt 第一名,486 票。Plurai 把给 agent 做 eval 这件事 vibe code 化了。
输入:你描述你的 agent 该做什么、不该做什么。输出:一个针对你 use case 训出来的小模型,跑在 100ms 以内,比 GPT-as-judge 便宜 8 倍、failure rate 低 43%。中间整个流程——生成训练数据、自动验证、训模型、部署——都是自动化的。
底层是他们自己的 BARRED 论文框架。创始团队:fmerian、Tammy Wolfson、Omri Sela。开源 GitHub: plurai-ai/intellagent。
为什么这事重要:上个月 SWE-bench Verified 退役、ClawMark/AutoResearchBench/SciCrafter 三个 benchmark 同周登场、Cursor 用 Opus 4.6 删生产库——agent 行业正经历一次评估和守护的方法论危机。LLM-as-a-judge 在前一波被认为是默认方案,现在三条路线在分头解题:rule-based 评分(ClawMark)、把人放回流程(Anthropic Skills 那种 reward)、专用小模型(Plurai)。Plurai 是专用小模型派最干净的产品化。
不过广告语 vibe-train 这词稍微浮——8x 便宜和 43% 失败率下降这两个数字需要看 BARRED 论文方法论才能信。但思路对:通用大模型当 judge 是 v0,下一步是每个 agent vertical 配自己 trained-eval。这跟当年分类 ML 不再用 zero-shot foundation model 是一个进化曲线。
链接:https://www.plurai.ai/launch
← 返回所有文章
输入:你描述你的 agent 该做什么、不该做什么。输出:一个针对你 use case 训出来的小模型,跑在 100ms 以内,比 GPT-as-judge 便宜 8 倍、failure rate 低 43%。中间整个流程——生成训练数据、自动验证、训模型、部署——都是自动化的。
底层是他们自己的 BARRED 论文框架。创始团队:fmerian、Tammy Wolfson、Omri Sela。开源 GitHub: plurai-ai/intellagent。
为什么这事重要:上个月 SWE-bench Verified 退役、ClawMark/AutoResearchBench/SciCrafter 三个 benchmark 同周登场、Cursor 用 Opus 4.6 删生产库——agent 行业正经历一次评估和守护的方法论危机。LLM-as-a-judge 在前一波被认为是默认方案,现在三条路线在分头解题:rule-based 评分(ClawMark)、把人放回流程(Anthropic Skills 那种 reward)、专用小模型(Plurai)。Plurai 是专用小模型派最干净的产品化。
不过广告语 vibe-train 这词稍微浮——8x 便宜和 43% 失败率下降这两个数字需要看 BARRED 论文方法论才能信。但思路对:通用大模型当 judge 是 v0,下一步是每个 agent vertical 配自己 trained-eval。这跟当年分类 ML 不再用 zero-shot foundation model 是一个进化曲线。
链接:https://www.plurai.ai/launch
评论