一篇新论文说,AI 科研 agent 让科学变窄了,而不是变宽
所有人都在拼命造那个自主科学家,那个会读文献、想假设、拓展人类认知边界的 agent。Yixuan Tang 和 Yi Yang 的一篇新论文把这个梦想拿出来对了对账,结果让人不太舒服。他们分析了 37802 个 AI 生成的研究想法,跨越四个 agent 框架和六个不同的语言模型,再拿它们去和人写的论文、以及两边共同出发的种子文献做对比。结论是:AI 科研 agent 擅长在局部精雕细琢,不擅长把探索拓宽。
四个模式反复出现。AI 生成的想法比来自同一研究领域的人类论文聚得更紧。它们离自己的源文献更近,而人类研究者从同一个起点会走得更远。那些长得像 AI 想法的论文,后续往往拿到更少的引用。而当一个 AI 想法真的跟既有工作不一样时,那点不一样通常来自把现成的技术方法重新拼装,而不是问出一个真正新的问题。
说白了,这些 agent 都收敛到了安全的中间地带。把同一个领域交给一千个 agent,你得到的不是一千个方向,而是对那篇最可能出现的下一篇论文的一千种变体。风险不在于 AI 做的科学是错的,而在于它单调,是一台更快地填满我们已知内部的引擎,而那些古怪的、真正拓展边界的挥拍,依旧是人类的事。
这件事重要,是因为科研 agent 整个 100 倍的故事都建立在它们会拓宽搜索这个前提上。而这是在接近 38000 个想法的规模上量出来的证据,说它们可能恰恰相反。这不代表 agent 没用,局部精雕也是实打实的活。它代表的是,探索与利用这个老问题并没有因为我们把想法自动化了就消失,它只是往上挪了一层,而那些古怪想法,还得有人来供。
链接:arxiv.org/abs/2605.27905
← 返回所有文章
四个模式反复出现。AI 生成的想法比来自同一研究领域的人类论文聚得更紧。它们离自己的源文献更近,而人类研究者从同一个起点会走得更远。那些长得像 AI 想法的论文,后续往往拿到更少的引用。而当一个 AI 想法真的跟既有工作不一样时,那点不一样通常来自把现成的技术方法重新拼装,而不是问出一个真正新的问题。
说白了,这些 agent 都收敛到了安全的中间地带。把同一个领域交给一千个 agent,你得到的不是一千个方向,而是对那篇最可能出现的下一篇论文的一千种变体。风险不在于 AI 做的科学是错的,而在于它单调,是一台更快地填满我们已知内部的引擎,而那些古怪的、真正拓展边界的挥拍,依旧是人类的事。
这件事重要,是因为科研 agent 整个 100 倍的故事都建立在它们会拓宽搜索这个前提上。而这是在接近 38000 个想法的规模上量出来的证据,说它们可能恰恰相反。这不代表 agent 没用,局部精雕也是实打实的活。它代表的是,探索与利用这个老问题并没有因为我们把想法自动化了就消失,它只是往上挪了一层,而那些古怪想法,还得有人来供。
链接:arxiv.org/abs/2605.27905
评论