2026年5月30日Research Agents Open Source

一个 1B 的小看门狗在安全榜上打平 GPT-5.4

AgentDoG 1.5 今天上 HuggingFace 论文榜第一，81 票。这是一组专门做 agent 安全的小模型——0.8B、2B、4B、8B 四档——能判断一段 agent 的轨迹安不安全，不安全的话还能给出原因，也能直接挂在出口当 guardrail，拦下不安全的输出再说话。模型和数据集都开放。

关键的是榜单分。4B 那一档在 R-Judge 上 92.2%，轨迹级判断追平 GPT-5.4 和 Gemini-3.1-Pro。0.8B 在细粒度风险诊断上依旧打过所有闭源对照组。而且整套训练只用了大约一千条样本，不是几百万——他们用 influence function 从三万二的合成池子里筛出信号最强的那一千条。

底下的结构才是它能成为一个独立品类的原因，不是 system prompt 拼个过滤器。风险被拆成三件事：来自哪里、怎么挂掉、真实世界会受什么伤，每一件事都有独立的奖励通道。ATBench-Codex 覆盖代码仓库、shell、MCP 这一类场景。ATBench-Claw 覆盖多会话和审批流。Agent 安全层规模化之后真正的样子，就是这种：一个小专用模型，挂在每一次回复前面，不是一段提示词。

https://arxiv.org/abs/2605.29801

← 上一篇

Firecrawl 出了个 /monitor，让 agent 别再傻爬

Qwen-VLA 想用一个模型管所有机器人

← 返回所有文章

加载中...

一个 1B 的小看门狗在安全榜上打平 GPT-5.4

相关文章

评论