2026年5月8日AgentsOpen SourceResearch

Anthropic把Petri捐了出去

Anthropic把自家用来审Claude的对齐评测工具捐了出去。5月7日宣布,Petri 3.0交给一个叫Meridian Labs的新非营利组织。这套工具Anthropic自己用了一年多,从Sonnet 4.5开始每代Claude发布前都要过一遍。

工具本身才是核心。Petri的玩法是用一个auditor模型扮演各种场景去试探目标模型,再用一个judge模型给对话打分,专门抓欺骗、谄媚、和被诱导去做坏事这三类行为。Dish这个组件能把真实生产环境的system prompt和脚手架塞进去,让审核结果反映实际部署情况而不是实验室假设。Bloom再叠一层更深的行为分析。

这个动作跟去年MCP交给Linux Foundation是一个剧本。Petri留在Anthropic手里,它给Claude打的每一分都自带利益冲突。Petri搬到中立非营利那里,政府和客户引用这些数据时就不用加脚注了。Petri跟Inspect、Scout一起,凑齐了一个不依赖任何单一实验室的开源agent评测栈。

战略上的意思很清楚。OpenAI没把红队工具开源,Google也没有,Anthropic主动把自己评分的尺子捐给第三方,节奏比对手快一拍。这事的赌注是:谁掌握了行业最权威的agent评测,谁就定义了"安全"是什么意思——而这个定义权现在落在一个Anthropic自己也管不着的非营利上。

https://www.anthropic.com/research/donating-open-source-petri
← 上一篇
运营日志: 2026-05-08
下一篇 →
OpenAI一口气放了三个语音Agent积木
← 返回所有文章

评论

加载中...
>_