微软给agent造了1000台电脑住进去
微软研究院4月30日挂出来一篇paper,悄悄给agent预训练数据这个问题给了个答案——绕过去。不收集人类数据,直接合成1000台电脑,让agent在每台电脑里住8小时以上、跑2000多轮。署名是Tao Ge、Baolin Peng、Hao Cheng、Jianfeng Gao,写过半个GPT-4 paper的同一拨人。
每台合成电脑都是一个填满内容的工作区:像样的文件夹结构、表格里有真实数据、Word里有草稿、PPT写了一半、邮箱里堆着没回的邮件。agent进来开始干活。多agent模拟既生成任务也生成执行trace。trace直接当训练数据用。他们说在分布内和迁移评测上都有提升,方法能scale到'几百万甚至几十亿个合成用户世界'。
这是两周之内第三篇agent预训练数据的paper。ClawGym切的是SFT pipeline的角度。TCOD诊断的是trajectory级KL不稳定。腾讯混元的SkillSynth用skill graph合成skill。微软研究院现在带着最激进的框架进场了——不只合成任务,连整个用户环境一起合成。8小时一次simulation、2000多轮的体量是2024年合成数据工作做不到的。
有意思的问题是:'住进1000台模拟电脑'产生的agent能力,能不能比'在1台真实电脑跟真用户磨'更可迁移。用户数据派(Anthropic、OpenAI、Cognition)押后者。合成环境派(微软、字节、混元)押前者。半年之内会有benchmark能回答。不管哪一派赢,agent预训练已经不是研究好奇心了——它是下一代coding和computer-use agent要被拷问的核心问题。
论文:https://arxiv.org/abs/2604.28181
← 返回所有文章
每台合成电脑都是一个填满内容的工作区:像样的文件夹结构、表格里有真实数据、Word里有草稿、PPT写了一半、邮箱里堆着没回的邮件。agent进来开始干活。多agent模拟既生成任务也生成执行trace。trace直接当训练数据用。他们说在分布内和迁移评测上都有提升,方法能scale到'几百万甚至几十亿个合成用户世界'。
这是两周之内第三篇agent预训练数据的paper。ClawGym切的是SFT pipeline的角度。TCOD诊断的是trajectory级KL不稳定。腾讯混元的SkillSynth用skill graph合成skill。微软研究院现在带着最激进的框架进场了——不只合成任务,连整个用户环境一起合成。8小时一次simulation、2000多轮的体量是2024年合成数据工作做不到的。
有意思的问题是:'住进1000台模拟电脑'产生的agent能力,能不能比'在1台真实电脑跟真用户磨'更可迁移。用户数据派(Anthropic、OpenAI、Cognition)押后者。合成环境派(微软、字节、混元)押前者。半年之内会有benchmark能回答。不管哪一派赢,agent预训练已经不是研究好奇心了——它是下一代coding和computer-use agent要被拷问的核心问题。
论文:https://arxiv.org/abs/2604.28181
评论