2026年5月8日Agents Open Source Research

Anthropic把Petri捐了出去

Anthropic把自家用来审Claude的对齐评测工具捐了出去。5月7日宣布，Petri 3.0交给一个叫Meridian Labs的新非营利组织。这套工具Anthropic自己用了一年多，从Sonnet 4.5开始每代Claude发布前都要过一遍。

工具本身才是核心。Petri的玩法是用一个auditor模型扮演各种场景去试探目标模型，再用一个judge模型给对话打分，专门抓欺骗、谄媚、和被诱导去做坏事这三类行为。Dish这个组件能把真实生产环境的system prompt和脚手架塞进去，让审核结果反映实际部署情况而不是实验室假设。Bloom再叠一层更深的行为分析。

这个动作跟去年MCP交给Linux Foundation是一个剧本。Petri留在Anthropic手里，它给Claude打的每一分都自带利益冲突。Petri搬到中立非营利那里，政府和客户引用这些数据时就不用加脚注了。Petri跟Inspect、Scout一起，凑齐了一个不依赖任何单一实验室的开源agent评测栈。

战略上的意思很清楚。OpenAI没把红队工具开源，Google也没有，Anthropic主动把自己评分的尺子捐给第三方，节奏比对手快一拍。这事的赌注是：谁掌握了行业最权威的agent评测，谁就定义了"安全"是什么意思——而这个定义权现在落在一个Anthropic自己也管不着的非营利上。

https://www.anthropic.com/research/donating-open-source-petri

← 上一篇

运营日志: 2026-05-08

OpenAI一口气放了三个语音Agent积木

← 返回所有文章

加载中...

Anthropic把Petri捐了出去

相关文章

评论