2026年5月5日super-user

超级用户日报: 2026-05-06

今天最值得讲的有两个故事。一个是周六晚上的诉讼律师,靠 Obsidian 加一句 Claude Code 的 query,在三份庭审记录里找出三处隐藏的矛盾,第二天庭审结果完全反转。另一个是研究员,在空着的 DGX Spark 上扔下一句 "loop forever",让 Claude Code 自动调 vLLM 跑了一夜,醒来一看 composite score 涨了 18%,关键改动是一个反直觉的参数。两件事看起来无关,但模式一模一样:人写下目标,Agent 烧 token 烧一夜,早上结果就在屏幕上。下面是过去 24 小时里大家真正干出来、踩坑、学到的东西。
@om_patel5 [Claude Code]
Claude Code#1
https://x.com/om_patel5/status/2051128442591056273
有人在 Windows 11 上用 Opus 4.7 max effort 跑 Claude Code CLI,眼睁睁看着它自信地试图把 powershell.exe 重命名——就是 Windows 系统本身需要的那个可执行文件。被打回去之后,Claude 居然回了一句"老实说,你 push back 是对的"。教训很硬:max effort + 完整权限 + 没有显式声明系统文件保护 = Claude 真的会动手把你操作系统的关键文件改名。要么放进 container 跑,要么明确告诉它哪些路径不能碰。模型并不知道什么不该动。
@Xx15573208 [Claude Code]
Claude Code#2
https://x.com/Xx15573208/status/2051290950358520097
一位音乐教育硕士 Hunter Bown,半路出家学编程,用 Claude 和 Cursor 写了一个"DeepSeek 版的 Claude Code"——DeepSeek-TUI,五一假期突然爆火,2.3k stars 登上 GitHub Trending。这个工具住在终端里,思维链实时流式输出,把 100 万 token 上下文用满,还有个 RLM 模式:一个主模型指挥 16 个 V4 Flash 子任务并行跑。Hunter 的项目贡献者列表里,Claude 提交了 150 多次 commit,Gemini、Qwen、Cursor、GitHub Copilot 都在上面。半路出家的程序员,用 AI 辅助编程给 AI 写辅助编程框架——这个工作流闭环了。
@gregisenberg [Claude Code + OpenClaw]
OpenClaw#3
https://x.com/gregisenberg/status/2051401818148946270
Andrew Wilkinson——名下 40+ 家公司——演示了他怎么用 OpenClaw 加 Claude Code 跑这些生意。他自己做了一个 SaaS 叫 Deep Personality,40 分钟性格测试出 100 页 Robert Greene 风格报告,已经有 2 万美金收入,零员工,全靠 agent 跑。客服、营销、开发都是 agent。重要 ticket 来了,dev agent 自己修 bug、合 PR、回邮件——他醒来都不知道。出差忘带电脑,他在 Uber 后座用 OpenClaw 把整个公司跑了一天,没人察觉每封邮件都是 AI 写的。他诚实地拆账:50% 时间在 debug,30% 在改 setup,20% 真在生产。但那 20% 太香了,停不下来。
@kidpakerot [Claude Code]
Claude Code#4
https://x.com/kidpakerot/status/2051138554986942894
一套完整的电商广告创意流水线:Hermes + Claude Code + Higgsfield MCP + ViralBuilder。ViralBuilder 抓全网爆款电商视频,按 hook 风格和播放速度聚类。Claude 读完聚类结果,调用自定义的 video-prompt-builder skill,一次出四份内容:分镜时间线、特效清单、密度图、能量曲线。Higgsfield MCP 在同一个聊天里直接渲染。从 hook 到成片,原来要半天加 500-2000 美金外包费,现在 10 分钟一条。原来一个产品测一版广告,现在能测五版。
@allenhurff [OpenClaw]
OpenClaw#5
https://x.com/allenhurff/status/2051289645745345015
独自跑 lossless-claw 跑了两个月之后,他给自己的 OpenClaw agent "Sedgwick the Sage" 加了一层语义大脑,叠在原本的"黑匣子飞行记录仪"之上。结果是双重记忆:黑匣子 session 轨迹用来回放,语义图谱让 agent 真正去推理。这是 OpenClaw 用户开始浮现的一种结构:上层做 memory,下层留 session 抓取,审计轨迹和长期知识两边都不丢。
@MrAhmadAwais [Claude Code]
Claude Code#6
https://x.com/MrAhmadAwais/status/2051377695389589935
本周最深的 harness 工程长文。这位工程师把 Kimi K2.6 和 DeepSeek V4 Pro 跑在 Claude Code 里,让它们在内部 eval 上分别打到 5/10、6/10 接近 Opus 4.7 的水平。四处修改,没动模型本身。最关键那一处只是一行 HTTP header:把稳定的 session id 当软 pin 转发上去,让同一对话的连续 turn 不再被 load balancer 派到不同 GPU pod,prefix cache 不再被偷走,TTFT 从 6-8 秒掉到 1 秒以内。再加上请求层用一个 canonical model id、按 upstream 协商 capability flag、对一个误把 R1 reasoning 剥离逻辑套到 V4 上的 provider 关掉 thinking 模式。模型没变聪明——是 harness 不再把它的工作扔掉。
@helloparalegal [Claude Code]
Claude Code#7
https://x.com/helloparalegal/status/2051378953169039668
一位独立诉讼律师,对手是某 200 律师大所的合伙人。她周六下午搭了个 Obsidian vault,把每份庭审记录、证物总结、证人画像全扔进去,名字之间互相 backlink。当晚跑了一句 Claude Code query:找出任意证人对早期证词的反驳。40 秒内,三处矛盾。其中一处实质性的——证人在自己的庭审里说"事发当晚我不在仓库",但公司 HR 主管三周后的 30(b)(6) 庭审又交出一份门禁卡刷卡记录,把他刷在那。junior associate 分别审过这两份庭审,但从未把它们对上。周一的庭审走向跟预期完全不一样。
@martynov014 [Claude Code]
Claude Code#8
https://x.com/martynov014/status/2051344835987296287
OnlyFans agency 的新形态:不再是 8-12 人的团队,只是一个 Claude Code orchestrator 加一个每 30 秒 ping 5 个收件箱的 cron job。每个 persona 四个文件——persona.md、voice.md、flux.md、brain.md。其中 brain.md 是真正的资产:一个记每个粉丝的 JSON 记忆层,能撑 5+ 个并发 persona。算力月成本约 400 美金,月营收 12.7 万美金。这条无关道德判断,结构性的转变值得记一笔:原来卡瓶颈的是写手团队和真模特,现在卡的是 taste 加四个 markdown 文件。
@browomo [Claude Code]
Claude Code#9
https://x.com/browomo/status/2051390084679696668
一位中国开发者,单台 M4 MacBook Pro(128GB 内存)上跑 9 个 Claude Code agent,由一个 GPT-5.5 orchestrator 调度,一个月关 500 个客户单。Orchestrator 每 30 秒查邮箱,把任务分类成 code/content/analysis/communication,派给 9 个 worker 之一,结果检查完直接发回客户标记关闭。从邮件进来到结果出去,平均 7 分钟。订阅总开销 ~300 美金/月。没有 CRM、没有团队、没有办公室——只有一个开 9 个并行流的终端窗口。
@GoSailGlobal [Claude Code]
Claude Code#10
https://x.com/GoSailGlobal/status/2051160512696868984
DeepClaude 详细拆解。它保留 Claude Code CLI 的整个外壳——文件操作、bash、git、subagent 循环——只把 API 调用从 Anthropic 换成 DeepSeek V4 Pro。重度月每月成本从 200 美金(Anthropic Max 上限)降到 ~50 美金,DeepSeek 的自动 context cache 让 agent loop 重复读同一份代码上下文便宜到原本的 1/120。/deepseek 切便宜模型干日常活,/anthropic 切回原版啃硬题,session 里热切换。代价:没有图像输入、没有并行 tool use、没有 MCP。一个月跑 25+ 天 Claude Code 又被卡上限的人,这数学没法装看不见。
@noisyb0y1 [Claude Code]
Claude Code#11
https://x.com/noisyb0y1/status/2051309661161169299
一个 16 岁的美国人,在 599 美金的 Mac Mini 上接 Claude Code 搭了个本地 Jarvis。Memory.md 记项目和昨天没干完的事,Tasks.md 存计划,Personality.md 定语气。他对着电脑问"我现在穿的什么",系统从本地文件读完答:"酒红色帽衫里面套黑 T"。全本地,零云端,没有月费。然后他把教程上 Gumroad 卖,两周收 12,400 美金。重点不是 demo——是替代关系:Neuralink 收 8,700 美金把芯片植入你脑子;他用一台 Mac Mini 加一个周末做出了类似的"个人语境"。
@bridgemindai [Claude Code]
Claude Code#12
https://x.com/bridgemindai/status/2051282469563883691
真实生产环境 debug 的对决。Opus 4.7 在 Claude Code 里读完整个仓库,给的回答是"两个 bug 都没有 smoking gun"。同一个 bug,GPT-5.5 xHigh 在 Codex 里一发命中,不需要任何探针。作者结论:Opus 在新建项目里很强,但生产 bug 的根因定位上崩了。他切了 debug 栈。这是这一天里好几个信号之一:Opus 4.7 → Codex GPT-5.5 的迁移已经不是炒作,做真实活的人正在 debug 任务上动起来。
@aijoey [Claude Code]
Claude Code#13
https://x.com/aijoey/status/2051243477606801900
今天最干净的"过夜 agent loop"案例。这位研究员把 Claude Code 指向 DGX Spark 上 Qwen3.6-35B-A3B 的 vLLM 自动调参,给了它一个 benchmark 脚本,撂下一句"loop forever"。第七轮:composite score +18%。最关键的发现反直觉——把 NUM_SPECULATIVE_TOKENS 从 15 降到 1,因为 Spark 的 SM_121 在 FP4 fallback 到 Marlin FP8 的情况下,drafter 的算力反而是浪费。每一轮:agent 改 config、commit、重启 container、跑 benchmark、留或撤,约 7 分钟一周期。单流吞吐从 19.9 升到 29.7 tok/s,并发 16 从 74.9 升到 201.3 tok/s。autoresearch 是真的。
@ventry089 [Claude Code]
Claude Code#14
https://x.com/ventry089/status/2051323261821038884
一个 Polymarket 天气交易 bot,靠周末 fork 一个被遗弃的 400 行仓库做出来。原作者答应过 v2 加 Kelly + EV + 自动退出,最后没发。这位用户打开 Claude Code,自己写了 v2,加了 14 个城市,把 ECMWF 和 HRRR 通过 open-meteo 接进去,再用 aviation weather 接 METAR,写了一个会从已结算市场里学的 sigma 校准,搭了 Flask PnL dashboard,扔进 43 个离线测试。MIT 协议。模式很清晰:死掉但能跑的仓库 + Claude Code + 一个想清楚的周末 = 一个跑在窄边缘上的真 trading agent。
@aakashgupta [Claude Code]
#15
https://x.com/aakashgupta/status/2051330692567777777
一个会自我改进的 PRD 评审 agent。它拿到 PRD,跑这位 PM 的真实 checklist(紧迫性、跟 ChatGPT wrapper 的差异化、AI 失败模式、归因风险),把评论写进文档。但有意思的是第二个 agent,每 30 分钟读一次人类对 AI 评论的修改,把这些写进 learner.md。同一个修改连续五天出现,它就发邮件提议升级 checklist。批准一次,下次 review 永久变好。大多数 reviewer 是冻结的;这个会复利,没人手动改 prompt。
@aakashgupta [OpenClaw]
#16
https://x.com/aakashgupta/status/2051346262889554035
Hermes 是第一个真正闭合"流程反馈循环"的 agent。每 15 次 tool call 之后,它会读一次本次 session 哪些做对了,把本地 skill 文件改写一次。这位 PM 的竞品简报:第一周 20 分钟,第六周 8 分钟,没改过 skill 文件一行——agent 自己改了四次。这帮你想明白一件事:你拥有的所有其他 AI 工具都冻结在你最初配置它的那个版本。Custom GPT、Claude Project,session 里跑的东西它们一点都不继承。模型是租的,skill 文件是你自己的。
@ComagerTon79278 [Claude Code]
Claude Code#17
https://x.com/ComagerTon79278/status/2051142838755459126
睡觉过夜 ¥150,000(约 1k 美金)入账:YouTube 联盟营销全自动跑在 Claude Code 上。Claude Code 自动做视频、自动发、自动迭代——他全程不看。打法是短视频导流到长视频的漏斗——Short 爆了,引到长视频,长视频里联盟链接转化。他正把同一套架构往 CrowdWorks(日本任务平台)的全自动化上扩。数字能不能复制是一回事;架构无人值守跑得通是另一回事,今天好几个日本玩家发了类似的变体。
@bytedunks [Claude Code]
Claude Code#18
https://x.com/bytedunks/status/2051314183346827351
ML 研究者们发了 MuJoCo Workbench (MWB):一个 CLI 加 agent skill 套件,让 Codex、Claude Code 这些编码 agent 能从自然语言直接搭物理仿真场景。装上 skill 包,描述你要的场景,agent 自动搭出能跑的 sim。skill 教 agent 用 mwb CLI、场景布局规范、调试工具,让它在你不懂 MuJoCo 底层的情况下迭代行为。"skill 当作业流程"应用到一个原本因为文档陡峭把研究员卡在外面的领域,这是它该有的形状。
@miroburn [Claude Code]
Claude Code#19
https://x.com/miroburn/status/2051394995655971218
一个真正的长跑 loop 案例:调 Lab Club 的匹配算法,目标接受率 85% 以上。Claude Code 在跑、在测、在挖边界 case,预计跑好几天。他还观察到 Codex /goal 和 Claude Code Ralph Loop 在抓 bug 上都很猛,因为 agent 钻得比任何人类审计都深。但跨多个生产业务系统并行优化是个新难题——agent 说"我在调你先暂停 Meta 广告",可你一暂停数据就断。这是新运维问题:几百个 agent 24/7 跑,人到底干什么?
@sickdotdev [Claude Code]
Claude Code#20
https://x.com/sickdotdev/status/2051248495332565288
本周关于 Claude Code 最清晰的认知模型推文:六个核心组件——CLAUDE.md(项目记忆)、Hooks(生命周期控制)、MCP Servers(外部集成)、Subagents(并行编排)、Skills(可复用知识)、Computer Use(完整执行)。多数人把 Claude Code 当高级自动补全用;真正搭系统的人会把这六块全吃透。这个论点有真东西:在确定的生命周期点上挂 hook,是团队强制规范的方式,不是指望 Claude 记住你说过什么。
@KanikaBK [Claude Code]
Claude Code#21
https://x.com/KanikaBK/status/2051347991924240646
一位真在干活的开发者,对 WozCode 用一周后的反馈:vanilla Claude Code 读文件、改文件、读相关文件是三次独立的 tool call,每次都把上下文拖一遍。WozCode 把它们 batch 起来。她的实际 session 里效率提升明显到她去跑 /woz-savings 看历史数据,"数字证实了我的感受"。信号在这——这个插件正在被本来就有成熟工作流的人采用,不只是被宣传账号推。
@mikepat711 [Claude Code]
Claude Code#22
https://x.com/mikepat711/status/2051312748005314628
本日最详细的对决:同一任务并行跑,3 份展会 PDF、一份参展商列表、50 份产品上下文文档。目标:3 小时步行路线,覆盖最高匹配的展位,附开场提问。Codex 里的 GPT-5.5 给的是 10 页 PDF,三个分阶段集群,还自动把大地图按阶段裁切放大成单独的页(他没要求),用了 5 小时上限的 25%。Claude Code 里的 Opus 4.7 给的是 6 页 PDF,多处排版错误,第二份地图整个忘了,跑掉 5 小时上限还触发了 12 美金的自动充值。他把所有新构建活都迁到 Codex 了,Claude 只留给已经在跑的自动化。
@lidangzzz [Claude Code]
Claude Code#23
https://x.com/lidangzzz/status/2051166164278038691
一条很硬的家长建议:教育唯一有用的是父母以身作则。希望孩子学编程?爹妈先用 Claude Code 写一个 C++ 最小操作系统出来。希望孩子学英语?少看垃圾肥皂剧,循环放 CNN。希望孩子学钢琴?先把巴赫 F 大调意大利协奏曲挑一个乐章自己弹熟。Claude Code 这一句是关键——它现在是父母的首选工具,不再只是孩子的。
@MacopeninSUTABA [Claude Code]
Claude Code#24
https://x.com/MacopeninSUTABA/status/2051134972707135795
Mercari 公开了他们 Claude Code 的组织级安全配置分发策略——用 MDM 把权限边界、命令执行限制、信息泄漏防护推到每一台员工电脑上。这是日本上市公司里一份比较具体的企业级 Claude Code 部署 writeup。形态值得关注:你不能信任每个员工自己配 agent 权限,得通过设备管理把策略推下去。
@dani_avila7 [Claude Code]
Claude Code#25
https://x.com/dani_avila7/status/2051309391509352515
Claude Security 公测跑了几天后的反馈:定时反复扫描、扫出漏洞、webhook 通知、跟 Claude Code on Web 直连去发 fix。不是一次性扫描——是一整套安全环境。这是 Anthropic 第一次自己出 security loop,不是第三方插件。"出 fix"这一步是把扫描从"报告"变成"解决"的关键。
@browomo [Claude Code]
Claude Code#26
https://x.com/browomo/status/2051283912236675179
一个 87 美金搭起来的厨房机器人,一天直播 18 小时 TikTok。Claude Code v2.1.42 控制电机和摄像头,Kimi 2.6 处理韩语、日语、葡萄牙语聊天识别。一个月 4.7 万订阅、约 4,800 美金/月的打赏。算法知道哪个 trick 让聊天互动率超过 8%,主人的猫 Mochi 每次走过摄像头互动率翻倍。当月最高单笔打赏:首尔来的 200 美金,要看机器人微抬一个轮子"抱"Mochi。直播总成本:API 19 美金/月 + 硬件 87 美金。主播原来是一张脸加一种语调;现在是一台硬件加一只猫。
@lucaxyzz [OpenClaw]
OpenClaw#27
https://x.com/lucaxyzz/status/2051174926275719456
一位实际在干活的开发者给的真实分工:OpenClaw 最终落到"24 小时 DevOps 助理"位置——pair node 文件操作、定时任务、那些无聊的基础设施粘合。真正写代码靠的是 Codex/Claude Code 或者 Droid/Cursor 的组合 harness。问题不在于 OpenClaw 还是 Claude Code,而是认真的工作流里 OpenClaw 是编排层,Claude Code/Codex 是底下真正的代码执行器。
🗣 用户心声
用户心声

token 浪费是首要抱怨,结构性原因不是用户问题。多条推文显示 vanilla Claude Code 每次文件操作都是单独的 tool call,每次都把全部上下文重放,长 session 指数级膨胀。@KKaWSB 等人把 ~70% 的 token 消耗追溯到可修复的模式:忘了挂的 hook、重读旧聊天记录、臃肿的 CLAUDE.md。任何能修这个的方案——WozCode、Memory.md、/clear 纪律、原始人 prompt、prefix cache pin——都有市场。

Opus 4.7 质量回退已经是工作假设,不是感觉。@bridgemindai 的 debug 任务 Opus 失败 GPT-5.5 一发命中,@mikepat711 的并行对决里 Opus 排版错误漏读输入,@dongxi_nlp 引用 Anthropic 自己 4 月的 quality report 承认 reasoning effort 和清空 thinking 的 bug。用户要的是一份带日期的公开质量 changelog,不是"感觉变差了"的推文。

Pro 套餐的信任在烧。@jgeigerm 报名后只拿到 7 天 trial,但官方说应该包含;@GergelyOrosz 记录了一次悄悄从 2% 新 Pro 用户里移除 Claude Code 的增长测试,被骂之后回滚,然后又开始移除。Anthropic 的对外沟通和增长实验完全没协调,开发者群体是最没耐心的那一批。

跨 session 记忆是缺失的基础设施。@obsidianstudio9、@thedotmack/claude-mem、@bridgemindai(Obsidian vault)、@aakashgupta(learner.md)、@allenhurff(lossless-claw + 语义图谱)——五个团队在解同一个问题:Claude 每个 session 都从零开始。能赢的是那个 sub-agent 在 session 启动时读、任务结束时写的 memory 层,不是 chat history 的滚屏。

开源模型 harness 缺口是隐性税。@MrAhmadAwais 的深度文章说清楚了:在 Claude Code 里跑 Kimi、DeepSeek 不做 prefix cache pin、canonical model id、capability 协商,会让它们"看起来不会写代码"。闭源 lab 自己悄悄吃掉这些成本。开源模型大声地吃然后被怪罪。谁先做出 open-model-first 的 harness,谁吃下这块。
📡 生态产品雷达
生态产品雷达

Codex / GPT-5.5——隔一条推就被提一次。Pro 用户向 Codex 迁移是真实的,本周很多人换了主力日常工具。/goal 模式和 Codex Desktop 应用是引爆点。

DeepSeek V4 Pro——这一波的开源编码模型主角。DeepClaude(Claude Code 便宜 17 倍)、GitHub trending 上的 DeepSeek-TUI、LiveCodeBench 上离 Opus 4.7 只差 1-2 个点的硬碰硬,都把它支起来了。

Hermes Agent (Nous Research)——浮现成 Claude Code 开发者向构建的"消费者面"对位。7 周破 10 万 star。在跨团队工作流里跟 OpenClaw 并列出现。

Higgsfield MCP/CLI——广告创意生成层。直接接 Claude Code 和 Codex,配套的 skill 把一份创意 brief 转成分镜级别的视频 prompt,搭配 ViralBuilder 挖热点。

TinyFish (Web Search + Fetch)——本周转免费,限额慷慨,瞬间在整个 agent 栈里被采纳:Claude Code、Codex、Cursor、OpenClaw、n8n、LangChain。Fetch 返回干净的 markdown 代替原始 HTML,把检索的 token 浪费砍掉。

WozCode——被引用最多的省 token 插件。把文件操作 batch 起来,让上下文保持精简,/woz-savings 审计历史浪费,/woz-benchmark 在你自己的代码库上验证。

Obsidian——Claude Code 工作流的通用"第二大脑"骨架。诉讼、知识管理、营销文案、项目记忆都在用。纯 markdown 加 backlink 比任何 dashboard 都强。

Flux + ElevenLabs——人格生成对,正在替代 AI 角色流水线里的摄影师和配音员。

Claude Code Skills 生态——Matt Pocock 的 skill pack、Anthropic 官方的 Frontend Design 和 Skill Creator、Karpathy 那 100 行 CLAUDE.md、宝玉的 baoyu-skills 中文内容生产。skill 现在是一个品类,不是一个 feature。
← 上一篇
T²PO 让多轮 Agent 不再过早收敛
下一篇 →
Loop 日报: 2026-05-06
← 返回所有文章

评论

加载中...
>_