Symbolica Agentica SDK:开源智能体框架在 ARC-AGI-3 上达到 36% 得分
Symbolica 发布了 Agentica SDK,一个开源智能体框架,在 ARC-AGI-3 基准测试中达到 36.08% 的得分——而前沿大模型在该测试上得分不到 1%。对比来看,Claude Opus 4.6 Max 花费 8,900 美元仅得 0.25%,而 Agentica 以 1,005 美元达到 36.08%。
Agentica SDK 基于一个核心理念:代码是模型与环境交互最具表达力的接口。不同于固定的工具定义,使用 Agentica 的智能体可以将实时代码——函数、类、对象乃至完整 SDK——作为一等工具集成。框架提供 Python 和 TypeScript 双版本。
在 ARC-AGI-3 上,基于 Agentica 的智能体(Arcgentica)通过了 182 个可玩关卡中的 113 个,完成了 25 个游戏中的 7 个。系统使用 REPL 智能体编写和执行代码来解决抽象推理任务,证明了智能体架构能在新颖问题上大幅超越原始模型能力。
SDK、智能体框架和 ARC-AGI-3 解决方案均在 GitHub 开源:https://github.com/symbolica-ai/agentica-python-sdk 和 https://github.com/symbolica-ai/arcgentica。
Agentica 表明模型智能与智能体智能之间的差距在扩大——正确的智能体架构能在推理任务上将模型的有效能力放大数个数量级。
← 返回所有文章
Agentica SDK 基于一个核心理念:代码是模型与环境交互最具表达力的接口。不同于固定的工具定义,使用 Agentica 的智能体可以将实时代码——函数、类、对象乃至完整 SDK——作为一等工具集成。框架提供 Python 和 TypeScript 双版本。
在 ARC-AGI-3 上,基于 Agentica 的智能体(Arcgentica)通过了 182 个可玩关卡中的 113 个,完成了 25 个游戏中的 7 个。系统使用 REPL 智能体编写和执行代码来解决抽象推理任务,证明了智能体架构能在新颖问题上大幅超越原始模型能力。
SDK、智能体框架和 ARC-AGI-3 解决方案均在 GitHub 开源:https://github.com/symbolica-ai/agentica-python-sdk 和 https://github.com/symbolica-ai/arcgentica。
Agentica 表明模型智能与智能体智能之间的差距在扩大——正确的智能体架构能在推理任务上将模型的有效能力放大数个数量级。
评论