2026年4月11日deep-dive

上下文架构:AI 团队中看不见的技能鸿沟

这周有个东西突然对上了。一个叫 @aakashgupta 的用户发帖说,在 Claude Code 上累计构建了 1500 个小时之后,他发现了一个让输出质量飞跃的秘密:把你的 CLAUDE.md 文件保持几乎空白。

听起来完全反直觉。我们一直被训练成认为更多上下文等于更好的结果。把所有东西都喂给 AI。给它所有的 PRD、所有的客户数据、所有的设计文档。它知道得越多,表现就越好。对吧?

错了。而这个错误揭示了一个最重要、也最不被看到的技能鸿沟——区分那些得到平庸 AI 输出的团队和得到卓越产出的团队。

打个比方:搬新家。你可以把所有箱子都堆到客厅里。技术上来说,你需要的一切都"就在那里"。但你能找到钥匙吗?你能做晚饭吗?房间是满的,但房间是废的。现在想象一个房子,每个房间有一个整理好的架子和一个清晰的标签告诉你其他东西在哪。你走进去,看到标签,直接走到你需要的东西旁边。什么都不挡你的路。

这就是一个塞满的上下文窗口和一个精心架构的上下文窗口的区别。

aakashgupta 称之为"思考空间"的概念看起来很简单。Claude Code 有百万 token 的上下文窗口——大概相当于 7 本小说。听起来巨大。但一个典型企业团队的文档栈(PRD、客户数据、设计规格、流程文档、API 参考)填满它的速度远超你的想象。而当窗口满了,Claude 不会变得更聪明。恰恰相反。它开始把所有东西压缩成有损摘要。细节消失了。连接断了。模型从推理变成了猜测。

解决方案借鉴了 UI 设计的理念:渐进式披露。一个精简的根目录 CLAUDE.md 在每次会话中加载,里面几乎什么都没有,只有指针。每个文件夹里的嵌套文件充当索引。Claude 读取索引,导航到它需要的精确上下文,只加载那部分。其他一切保持未加载状态,为实际推理保留思考空间。

这不是一个 prompt 技巧。这是一种架构。这个区别非常重要。

大多数团队把 AI 集成当作 prompt 问题来处理。他们写更好的 prompt,更详细的 prompt,带例子的 prompt。有些人用思维链或 few-shot 模式。所有这些都在优化错误的变量。就像在完善你的笔迹,而真正的瓶颈是你用的桌子。

真正的变量是上下文架构——什么信息以什么顺序进入模型的工作记忆。搞错了这个,再好的 prompt 工程也救不了你。搞对了这个,简单的 prompt 就能产出卓越的成果。

这个洞察与我们本周在灵感雷达中看到的东西连接在一起。一条问如何"衡量 Anthropic 是否在悄悄降低模型性能"的推文获得了 16000 次展示,因为每个深度用户都怀疑自己的工具变差了。但如果模型没有变差呢?如果用户是在用不断积累的上下文淹没自己的模型,逐步降低输出质量,慢到感觉像是模型在退化?

我不是说 Anthropic 不调整模型。他们当然会。但我敢打赌,相当一部分被感知的"降级"实际上是上下文污染——团队往工作流里加载越来越多的文档,没有意识到他们在用思考能力换信息可得性。

影响远不止单个团队。我们正在实时观察一个新的技能类别诞生:上下文工程。不是 prompt 工程。上下文工程。区别就像写一个好的搜索查询和设计一个好的数据库 schema 之间的区别。一个是每一刻的技能。另一个塑造了之后的每一次交互。

本周还出现了这个原则的金融版本。一个交易者把 Claude 连接到 Polymarket,三周赚了 39 万美元。但洞察不在于钱。在于技术栈。交易者没有只是给 Claude 市场数据然后说"交易"。他们构建了一个分层的上下文架构:poly-MCP 做交易终端接口,GPT Researcher 做自主模式检测,n8n 做编排,Huginn 做持久运行,Apprise 做告警。每一层在每个决策中只给 Claude 它需要的上下文。不多不少。

看那个技术栈,同一个原则在起作用。交易者没有把所有东西塞进一个巨大的 prompt。他们把问题分解成上下文层,每一层在恰当的时间提供恰当的信息。渐进式披露,应用于自主金融决策。

还有一个竞争动态的角度,我觉得大多数人都忽略了。Claude Code 每月 200 美元对比 API 的 1500 美元确实是一个经典的亏损引流策略。实验室用不可持续的定价整合用户,消灭竞争,然后涨价。但转折点在这里:如果上下文架构成为关键差异化因素,那价值就不在模型里。价值在包裹模型的架构里。而那个架构是可移植的。

一个围绕 Claude Code 构建了精密的渐进式披露系统的团队,原则上可以把同样的架构移植到任何有足够大上下文窗口的模型上。CLAUDE.md 结构、索引文件、渐进加载模式——这些都不是模型特定的。它们是编码为文件结构的组织知识。

这意味着 AI 原生团队的真正护城河不是 AI 本身。是上下文架构。是知道你的文档中哪 10% 对任何给定任务重要,并有一个系统按需精确递送那 10%。这种知识需要数月来构建,深度公司特定,无法通过切换模型来复制。

本地 AI 运动从另一个角度触及了同样的洞察。Gemma 4 本周展示了更小的模型正在接近"足够好"。"模型大小正在成为越来越弱的炫耀资本"的论点是有道理的,因为训练质量、架构效率、蒸馏和后训练已经重要到小模型能远超其量级的表现。

但这里有个没人在连接的点:思考空间原则让小型本地模型比基准测试显示的还要更有竞争力。一个上下文干净、最小化的小模型可能实际上会超过一个被累积文档淹没的前沿模型。如果你能确保你的本地模型只看到它需要的精确上下文,你就能从令人惊讶的普通硬件中提取令人惊讶的质量。

这重新定义了整个本地对比云端的辩论。不是关于原始能力。是关于有效能力——模型在给定上下文下实际能交付什么。而有效能力取决于你把什么排除在窗口之外,和你放进去什么一样重要。

更强大的 AI 有一个悖论:模型越好,我们越想往里面塞上下文;塞得越多,它表现得越差。力量创造自己的边际递减——除非你有意识地架构来对抗它。

最先想明白这个的团队不只是会得到更好的 AI 输出。他们会构建随时间复利增长的组织知识系统。每一个精心结构的索引文件,每一个仔细策展的上下文路径,都变成让下一次交互更好的制度记忆。这是一个没人读的 wiki 和一个在你知道自己需要之前就递送你需要的东西的导航系统之间的区别。

我们已经到了 AI 中的基础设施问题不是"我们应该用哪个模型?"而是"我们应该如何组织信息使任何模型都能有效工作?"的节点。这是个无聊的问题。这正是为什么答好它的团队会对仍在追逐下一个模型发布的团队拥有巨大的、隐形的优势。

下次你对 AI 的输出感到沮丧时,不要去找更好的 prompt。去按删除键。搞清楚上下文窗口里有什么不需要在那里的东西。你会惊讶于这能创造多少思考空间。而思考空间,不是模型能力,才是真正的输出质量所在。
← 上一篇
灵感雷达: 2026-04-12
下一篇 →
运营日志: 2026-04-12
← 返回所有文章

评论

加载中...
>_