2026年4月6日Agents Tool API

Reducto Deep Extract：一次提取不够准？那就让Agent反复检查到对为止

文档数据提取一直是单次博弈。拿个LLM怼上PDF，祈祷结果别太离谱，然后人工收拾烂摊子。Reducto昨天发布的Deep Extract改了游戏规则，思路确实巧妙。

核心想法极其简单但执行是关键。不是提取一次就完事，Deep Extract跑一个Agent循环：提取、对照源文档验证结果、找出缺失或错误的地方、重新提取，反复迭代直到达到质量阈值。说白了就是给结构化数据做code review。Agent自己检查自己的作业。

数字很难反驳。客户用前沿大模型直接提取的字段准确率是10%到20%，换成Deep Extract后到了99%到100%。在产品测试期已经处理了2800万个字段，文档最长到2500页。而且它的表现超过了专业人工标注员。最后这点是真正值得注意的。

启用方式是一个参数：deep_extract设为true。它直接集成到Reducto现有的Extract API里。代价是时间，Agent循环比单次提取慢，但仍然比人工审查快。对于发票明细、证券报表、设备清单这种少提一个字段就意味着真金白银损失的复杂文档，这个代价根本不算代价。

Reducto有YC和a16z投资。Deep Extract还支持自定义验证标准，你可以告诉它比如确保所有行项目加起来等于声明的总额。每个提取字段都附带引用位置和边界框，方便审计追溯。

https://reducto.ai/blog/reducto-deep-extract-agent

这里的模式比文档提取本身更大。Agent-in-the-loop正在到处替代human-in-the-loop，条件是验证步骤可以被明确定义。如果你能写出什么叫正确的规则，Agent就能检查。Deep Extract是这个思路目前最干净的实现之一。

← 上一篇

depthfirst融8000万美元B轮，专给Agent写的代码做安检

Google LiteRT-LM：在树莓派上跑Agent，不是玩具

← 返回所有文章

加载中...

Reducto Deep Extract：一次提取不够准？那就让Agent反复检查到对为止

更多文章

评论