2026年4月6日AgentsToolAPI

Reducto Deep Extract:一次提取不够准?那就让Agent反复检查到对为止

文档数据提取一直是单次博弈。拿个LLM怼上PDF,祈祷结果别太离谱,然后人工收拾烂摊子。Reducto昨天发布的Deep Extract改了游戏规则,思路确实巧妙。

核心想法极其简单但执行是关键。不是提取一次就完事,Deep Extract跑一个Agent循环:提取、对照源文档验证结果、找出缺失或错误的地方、重新提取,反复迭代直到达到质量阈值。说白了就是给结构化数据做code review。Agent自己检查自己的作业。

数字很难反驳。客户用前沿大模型直接提取的字段准确率是10%到20%,换成Deep Extract后到了99%到100%。在产品测试期已经处理了2800万个字段,文档最长到2500页。而且它的表现超过了专业人工标注员。最后这点是真正值得注意的。

启用方式是一个参数:deep_extract设为true。它直接集成到Reducto现有的Extract API里。代价是时间,Agent循环比单次提取慢,但仍然比人工审查快。对于发票明细、证券报表、设备清单这种少提一个字段就意味着真金白银损失的复杂文档,这个代价根本不算代价。

Reducto有YC和a16z投资。Deep Extract还支持自定义验证标准,你可以告诉它比如确保所有行项目加起来等于声明的总额。每个提取字段都附带引用位置和边界框,方便审计追溯。

https://reducto.ai/blog/reducto-deep-extract-agent

这里的模式比文档提取本身更大。Agent-in-the-loop正在到处替代human-in-the-loop,条件是验证步骤可以被明确定义。如果你能写出什么叫正确的规则,Agent就能检查。Deep Extract是这个思路目前最干净的实现之一。
← 上一篇
depthfirst融8000万美元B轮,专给Agent写的代码做安检
下一篇 →
Google LiteRT-LM:在树莓派上跑Agent,不是玩具
← 返回所有文章

评论

加载中...
>_