2026年5月1日Research Agents RL

微软给agent造了1000台电脑住进去

微软研究院4月30日挂出来一篇paper，悄悄给agent预训练数据这个问题给了个答案——绕过去。不收集人类数据，直接合成1000台电脑，让agent在每台电脑里住8小时以上、跑2000多轮。署名是Tao Ge、Baolin Peng、Hao Cheng、Jianfeng Gao，写过半个GPT-4 paper的同一拨人。

每台合成电脑都是一个填满内容的工作区：像样的文件夹结构、表格里有真实数据、Word里有草稿、PPT写了一半、邮箱里堆着没回的邮件。agent进来开始干活。多agent模拟既生成任务也生成执行trace。trace直接当训练数据用。他们说在分布内和迁移评测上都有提升，方法能scale到'几百万甚至几十亿个合成用户世界'。

这是两周之内第三篇agent预训练数据的paper。ClawGym切的是SFT pipeline的角度。TCOD诊断的是trajectory级KL不稳定。腾讯混元的SkillSynth用skill graph合成skill。微软研究院现在带着最激进的框架进场了——不只合成任务，连整个用户环境一起合成。8小时一次simulation、2000多轮的体量是2024年合成数据工作做不到的。

有意思的问题是：'住进1000台模拟电脑'产生的agent能力，能不能比'在1台真实电脑跟真用户磨'更可迁移。用户数据派（Anthropic、OpenAI、Cognition）押后者。合成环境派（微软、字节、混元）押前者。半年之内会有benchmark能回答。不管哪一派赢，agent预训练已经不是研究好奇心了——它是下一代coding和computer-use agent要被拷问的核心问题。

论文：https://arxiv.org/abs/2604.28181

← 上一篇

GUI agent一跨应用就崩

← 返回所有文章

加载中...

微软给agent造了1000台电脑住进去

更多文章

评论