ARIS:上交大开源的自主科研框架,专治 agent 一本正经地胡说八道
ARIS 5 月 4 日上 arXiv,作者是上海交大李帅老师组的杨若枫、李永灿、李帅。今天爬到 Hugging Face Daily Papers 第一,68 个赞。它是一个开源的自主 ML 研究 harness,立题切入点很狠——它要解决的不是 agent 跑崩了的明显失败,而是"看起来很对的胡说八道"。长时间跑的 agent 会产出听起来有道理的结论,但证据要么不完整、要么是从执行模型的预设里偷偷继承下来的。ARIS 就是为了抓这种失败而设计的。
机制叫跨模型对抗协作。执行模型负责往前推进,评审模型必须来自不同家族,专门挑刺、要求重做。三层架构:执行层有 65+ 个 Markdown 写的 skill、MCP 集成、持久化研究 wiki、确定性图表生成;编排层包五个端到端 workflow,effort 可调;保障层是三段式校验流水线。让评审模型来自不同家族这件事是关键——同家族互评会朝共同盲区漂,跨家族评审才能把真分歧逼出来。
为什么这事跟 agent 主线相关。自主科研是长程 agent 最清晰的应用场景之一,整个领域都在抢着做垂直研究 agent(Sakana、Anthropic Claude Research、StanfordPaperBench)。ARIS 是第一个把"分歧即真相"这个设计模式放到核心位置的开源 harness。它跟 Skills 运动(Anthropic Skills、addyosmani/agent-skills)天然衔接——ARIS 把 skill 当一等公民的研究工具用,不是当 chat prompt 用。
项目页:https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep | 论文:https://arxiv.org/abs/2605.03042
← 返回所有文章
机制叫跨模型对抗协作。执行模型负责往前推进,评审模型必须来自不同家族,专门挑刺、要求重做。三层架构:执行层有 65+ 个 Markdown 写的 skill、MCP 集成、持久化研究 wiki、确定性图表生成;编排层包五个端到端 workflow,effort 可调;保障层是三段式校验流水线。让评审模型来自不同家族这件事是关键——同家族互评会朝共同盲区漂,跨家族评审才能把真分歧逼出来。
为什么这事跟 agent 主线相关。自主科研是长程 agent 最清晰的应用场景之一,整个领域都在抢着做垂直研究 agent(Sakana、Anthropic Claude Research、StanfordPaperBench)。ARIS 是第一个把"分歧即真相"这个设计模式放到核心位置的开源 harness。它跟 Skills 运动(Anthropic Skills、addyosmani/agent-skills)天然衔接——ARIS 把 skill 当一等公民的研究工具用,不是当 chat prompt 用。
项目页:https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep | 论文:https://arxiv.org/abs/2605.03042
评论