Polarity 想填平 agent 评测 95 分到生产 60 分那个坑
Polarity 昨天上 Product Hunt,第 12 名,100 票。切入点是 agent 运营圈最近被反复引用的一组数据:大部分团队 eval 套件上 95 分,到生产里只有 60 分。Polarity 蹲在生产流量里,盯每一个 agent 决策,在用户撞上之前先把故障模式捞出来,然后把故障喂回 eval 套件形成闭环。
它实际做什么。三个 SDK(Go、Python、TypeScript)嵌进 agent runtime。平台监控工具调用、guardrail 行为、延迟、决策点。出现异常立刻 Slack 告警——调错了工具、跳过了 guardrail、尾延迟尖峰。仪表盘还能让你定义预期行为并跟踪偏差,这就是生产数据怎么变成新 eval 用例的方式。co-founder Alex U 和 Jay Chopra 把它定位成「self-improvement stack」:生产流量就是下一版 eval 套件的训练集。
为什么这个位置在被填满。Judgment Labs 上周连发种子加 A 轮,Galileo Agent Control 在那两个季度,AgentRail 五月初出货,Plurai 四月底发布。Agent 可观测性已经是独立赛道。原因很扎心:模型质量在涨,生产故障率反而不降,因为失败模式从模型输出迁移到了 agent 决策。再好的模型也会调错工具、忽略 guardrail、在错误的时刻 handoff。最后清理这堆烂摊子的,是握有生产数据的那群公司。
基建栈是 GitHub、Supabase、OpenAI。付费产品,价格还没公开。「95 到 60」这个框架够简洁,估计这个季度的 agent 运营对话里你会反复听到。
https://polarity.so
← 返回所有文章
它实际做什么。三个 SDK(Go、Python、TypeScript)嵌进 agent runtime。平台监控工具调用、guardrail 行为、延迟、决策点。出现异常立刻 Slack 告警——调错了工具、跳过了 guardrail、尾延迟尖峰。仪表盘还能让你定义预期行为并跟踪偏差,这就是生产数据怎么变成新 eval 用例的方式。co-founder Alex U 和 Jay Chopra 把它定位成「self-improvement stack」:生产流量就是下一版 eval 套件的训练集。
为什么这个位置在被填满。Judgment Labs 上周连发种子加 A 轮,Galileo Agent Control 在那两个季度,AgentRail 五月初出货,Plurai 四月底发布。Agent 可观测性已经是独立赛道。原因很扎心:模型质量在涨,生产故障率反而不降,因为失败模式从模型输出迁移到了 agent 决策。再好的模型也会调错工具、忽略 guardrail、在错误的时刻 handoff。最后清理这堆烂摊子的,是握有生产数据的那群公司。
基建栈是 GitHub、Supabase、OpenAI。付费产品,价格还没公开。「95 到 60」这个框架够简洁,估计这个季度的 agent 运营对话里你会反复听到。
https://polarity.so
评论