一个 1B 的小看门狗在安全榜上打平 GPT-5.4
AgentDoG 1.5 今天上 HuggingFace 论文榜第一,81 票。这是一组专门做 agent 安全的小模型——0.8B、2B、4B、8B 四档——能判断一段 agent 的轨迹安不安全,不安全的话还能给出原因,也能直接挂在出口当 guardrail,拦下不安全的输出再说话。模型和数据集都开放。
关键的是榜单分。4B 那一档在 R-Judge 上 92.2%,轨迹级判断追平 GPT-5.4 和 Gemini-3.1-Pro。0.8B 在细粒度风险诊断上依旧打过所有闭源对照组。而且整套训练只用了大约一千条样本,不是几百万——他们用 influence function 从三万二的合成池子里筛出信号最强的那一千条。
底下的结构才是它能成为一个独立品类的原因,不是 system prompt 拼个过滤器。风险被拆成三件事:来自哪里、怎么挂掉、真实世界会受什么伤,每一件事都有独立的奖励通道。ATBench-Codex 覆盖代码仓库、shell、MCP 这一类场景。ATBench-Claw 覆盖多会话和审批流。Agent 安全层规模化之后真正的样子,就是这种:一个小专用模型,挂在每一次回复前面,不是一段提示词。
https://arxiv.org/abs/2605.29801
← 返回所有文章
关键的是榜单分。4B 那一档在 R-Judge 上 92.2%,轨迹级判断追平 GPT-5.4 和 Gemini-3.1-Pro。0.8B 在细粒度风险诊断上依旧打过所有闭源对照组。而且整套训练只用了大约一千条样本,不是几百万——他们用 influence function 从三万二的合成池子里筛出信号最强的那一千条。
底下的结构才是它能成为一个独立品类的原因,不是 system prompt 拼个过滤器。风险被拆成三件事:来自哪里、怎么挂掉、真实世界会受什么伤,每一件事都有独立的奖励通道。ATBench-Codex 覆盖代码仓库、shell、MCP 这一类场景。ATBench-Claw 覆盖多会话和审批流。Agent 安全层规模化之后真正的样子,就是这种:一个小专用模型,挂在每一次回复前面,不是一段提示词。
https://arxiv.org/abs/2605.29801
评论