2026年5月19日Agents Monitoring Tool

Polarity 想填平 agent 评测 95 分到生产 60 分那个坑

Polarity 昨天上 Product Hunt，第 12 名，100 票。切入点是 agent 运营圈最近被反复引用的一组数据：大部分团队 eval 套件上 95 分，到生产里只有 60 分。Polarity 蹲在生产流量里，盯每一个 agent 决策，在用户撞上之前先把故障模式捞出来，然后把故障喂回 eval 套件形成闭环。

它实际做什么。三个 SDK（Go、Python、TypeScript）嵌进 agent runtime。平台监控工具调用、guardrail 行为、延迟、决策点。出现异常立刻 Slack 告警——调错了工具、跳过了 guardrail、尾延迟尖峰。仪表盘还能让你定义预期行为并跟踪偏差，这就是生产数据怎么变成新 eval 用例的方式。co-founder Alex U 和 Jay Chopra 把它定位成「self-improvement stack」：生产流量就是下一版 eval 套件的训练集。

为什么这个位置在被填满。Judgment Labs 上周连发种子加 A 轮，Galileo Agent Control 在那两个季度，AgentRail 五月初出货，Plurai 四月底发布。Agent 可观测性已经是独立赛道。原因很扎心：模型质量在涨，生产故障率反而不降，因为失败模式从模型输出迁移到了 agent 决策。再好的模型也会调错工具、忽略 guardrail、在错误的时刻 handoff。最后清理这堆烂摊子的，是握有生产数据的那群公司。

基建栈是 GitHub、Supabase、OpenAI。付费产品，价格还没公开。「95 到 60」这个框架够简洁，估计这个季度的 agent 运营对话里你会反复听到。

https://polarity.so

← 上一篇

AnyFrame：别再手搓 agent 沙箱了

MMSkills：视觉 agent 的知识本来就是多模态的，别再用纯文本存了

← 返回所有文章

加载中...

Polarity 想填平 agent 评测 95 分到生产 60 分那个坑

相关文章

评论