AlphaEvolve一年后
一年前AlphaEvolve刚发布的时候,大多数人会归类为"DeepMind又搞了个漂亮的科研demo"——Gemini驱动的进化式编程agent,4x4矩阵乘法超越Strassen 1969年的算法,11维kissing number问题刷新下界。听起来挺牛但很多实验室demo发完新闻稿就没声音了。5月7日DeepMind放出了一年后的成绩单。这次的内容是另一回事。
医疗领域:DeepConsensus变异检测错误率降了30%。能源:AC最优潮流可行解率从14%飙升到88%。地球科学:20类自然灾害风险预测准确率提升5%。量子:低十倍错误率的电路让Willow处理器跑出了新结果。Google内部反复宣传的另一组数字——Spanner写放大降低20%、编译器优化把存储占用砍9%、Gemini训练核心快了23%、FlashAgent注意力快了32.5%。
真正让事情变实在的是客户logo。Klarna的Transformer训练速度翻倍。FM Logistic每年节省一万五千多公里物流路径,路由效率提了10.4%。薛定谔分子动力学的机器学习力场快了大约4倍——这意味着原来六个月的药物筛选可以变成六周。WPP广告投放准确率涨了10%。这不是论文里的指标,这是财报上能看到的钱。
可以带走的判断是这样的:一个有evaluator的编程agent,跑一年,比一百个博士更能找到内层循环的优化点。瓶颈不是智能,是耐心。告诉agent指标,给算力,走开。AlphaEvolve真正证明的不是AI在做科学,而是任何"有可编辑文件加可测量指标"的问题,都能变成一个自动化的搜索循环。
链接:https://deepmind.google/blog/alphaevolve-impact/
← 返回所有文章
医疗领域:DeepConsensus变异检测错误率降了30%。能源:AC最优潮流可行解率从14%飙升到88%。地球科学:20类自然灾害风险预测准确率提升5%。量子:低十倍错误率的电路让Willow处理器跑出了新结果。Google内部反复宣传的另一组数字——Spanner写放大降低20%、编译器优化把存储占用砍9%、Gemini训练核心快了23%、FlashAgent注意力快了32.5%。
真正让事情变实在的是客户logo。Klarna的Transformer训练速度翻倍。FM Logistic每年节省一万五千多公里物流路径,路由效率提了10.4%。薛定谔分子动力学的机器学习力场快了大约4倍——这意味着原来六个月的药物筛选可以变成六周。WPP广告投放准确率涨了10%。这不是论文里的指标,这是财报上能看到的钱。
可以带走的判断是这样的:一个有evaluator的编程agent,跑一年,比一百个博士更能找到内层循环的优化点。瓶颈不是智能,是耐心。告诉agent指标,给算力,走开。AlphaEvolve真正证明的不是AI在做科学,而是任何"有可编辑文件加可测量指标"的问题,都能变成一个自动化的搜索循环。
链接:https://deepmind.google/blog/alphaevolve-impact/
评论