最新 · Latest
2026年7月3日
Retrace:agent终于有了真正的调试器
今天调试一个agent,基本靠重跑一遍然后祈祷它用同样的方式挂掉。它不会的——这正是全部问题所在。本周在Product Hunt上线的Retrace是一个agent执行回放引擎:把一次运行里的每个LLM调用、每次工具执行、每个报错都录下来,然后可以确定性地回放,从出问题的那一步fork出去,改掉输入,把下游整条链路级联重放。两条时间线并排diff,连成本和延…
2026年7月3日
RL后训练可能只需要练一层
这个结果应该让每家实验室管预算的人坐直了。新论文Is One Layer Enough?(arXiv 2607.01232,今天在HN首页)发现:只训练transformer的一层,就能拿回全参数RL训练的大部分收益——有时候还能反超。作者提出“layer contribution”这个量,衡量单独训某一层能恢复全量RL提升的百分之多少,实验做得很扎实:Qw…
2026年7月3日
Manufact想当MCP界的Vercel
Manufact(YC S25)今天上了Launch HN,说的事很简单:MCP服务器应该像网站一样部署。这家公司维护着mcp-use——开源SDK,下载量700多万,GitHub上10k+ star——现在在上面盖了一层Manufact Cloud:一条命令生成MCP服务器骨架,推到GitHub自动部署,每个分支给你一个预览URL,云端inspector直…
2026年7月3日
少说话,省钱:8万star的Caveman
光是slogan就配得上这个star数:why use many token when few token do trick——为啥用许多token,少少token就够。Caveman是个Claude Code技能,让你的agent像原始人一样说话:短句、零废话、没有“好问题!”这种开场白,但技术内容一点不丢。项目自己跑的10个任务基准:输出token平均砍…
2026年7月3日
OpenAI给Claude Code写了个官方插件
这事你得反应一下才能品出味道。OpenAI官方出了个仓库叫codex-plugin-cc,功能是让你在Claude Code里面直接调用Codex。敲一句/codex:review,OpenAI的编程agent就来审查Anthropic的agent刚写的代码。还有个/codex:adversarial-review,明确让Codex去攻击你的实现方案。22.…
2026年7月2日
Meta把自己的设计系统开源了,好让Agent照着人的方式搭界面
Meta把astryx开源了,这套设计系统它自己内部建了、用了八年。底下是React加StyleX,一百五十多个无障碍组件,主题、暗色模式、模板都有。表面看这就是又一个组件库。真正要紧的那句话藏在介绍里,它是这么设计的,让一个人和一个AI助手用同一套参照、以同样的方式来搭。
同一套API、同一份文档、同一个CLI,人用和agent用是一样的。不是截图,不是…
2026年7月2日
腾讯把跑不可信Agent代码的那个盒子开源了
每次你的agent去跑一段大模型生成的代码,你其实是在让一段没有任何人看过的东西碰你的机器。CubeSandbox,腾讯云刚开源的,就是一个专门跑这种代码的地方,一行坏代码伸不出手来咬你。底子是RustVMM加KVM,最关键的一步是每个沙箱都有自己独立的Guest OS内核。这是硬件级别的隔离,不是Docker那种共享内核赌一把。
卖点在数字上。沙箱启动不…
2026年7月2日
Orca:想给视频、语言和动作装一个共同的大脑
智源发了Orca,今天Hugging Face论文榜第一,而且甩开第二名一大截,它176个赞的时候第二名才21。它想干的事写在副标题里,世界在你的脑子里。别人是训三个各自独立的反射,文字预测下一个token、视频预测下一帧、机器人预测下一个动作,Orca只学一件事,预测下一个状态。一张关于世界接下来要怎么变的统一的隐空间图景。
它怎么做到的才是精彩的地方。…
2026年7月2日
ZCode:能在Telegram里@它干活的编程Agent
智谱刚发了ZCode,今天挂在Hacker News首页。你可以把它理解成Codex或者Claude Code,只不过底下跑的是GLM-5.2,而且做这个应用的就是做这个模型的那拨人。原生Electron桌面端,mac、windows都有,Linux还在beta,内置二十多个工具,git和终端都在里面。你要是已经有他们的Coding Plan,拿个API k…
2026年7月1日
agent 最难的技能,是知道什么时候放弃
华盛顿大学一篇新论文问了一个听起来很无聊、结果却很残酷的问题:agent 知道什么时候该停、而不是一直动手吗?背后的三位作者 Han Luo、Bingbing Wen 和 Lucy Lu Wang,让 13 个 LLM agent 系统跑遍网购、终端任务和问答,总共两万八千多个任务,发现及时弃权正是 agent 崩掉的地方。有的该停时永远不停,有的要在一长串…
第 1 页
较早 →
招聘 · Hiring
AI Agent 公司最新职位,开放即收录。
Thinking Machines
Software Engineer, Full Stack, Tinker
Thinking Machines
Recruiting Coordinator, Research
Vercel
GRC Analyst
Glean
Software Engineer, Cloud Deployment Infrastructure
Temporal
Senior Solutions Architect, Commercial - SF
Temporal
Events & Field Marketing Manager - India