2026年6月28日Agents Skills Open Source

Video-use：Claude Code不看视频就把视频剪了

browser-use，就是那个做网页自动化agent、被全网fork的团队，刚发了一个video-use，挺巧的。你把原始素材丢进一个文件夹，跟Claude Code聊几句，它给你吐回一个final.mp4。自动剪掉口头禅和废话停顿，每段自动调色，每个剪辑点加30毫秒音频淡入淡出，烧字幕，还能用Manim、Remotion、PIL生成动画叠层。

它能跑起来的关键trick是：模型根本不看视频。它读两层东西。第一层是ElevenLabs转出来的逐词时间戳加说话人标注。第二层是一个“时间线视图”工具，只在它要决定某个剪辑点的时候，才按需渲染那一小段的胶片帧加波形图PNG给它看。这样一来，剪一个20分钟的视频就变成了一个文本问题，而不是视觉问题，又便宜又快，这就是它能用起来的全部原因。

它是以Claude Code skill的形式发的，一个SKILL.md软链进你的skills目录就行，在Codex、Cursor、OpenClaw里也能用。这又是OpenMontage那个故事：创意生产正在变成agent拿一个skill文件就能干的事，而不是你在时间线上一帧帧抠的事。老实说一句caveat：它太新了，还没发正式release，所以把它当成一个很锋利的“未来长这样”的demo，而不是成品。地址：github.com/browser-use/video-use

← 上一篇

Strix：会自己交修复PR的AI黑客

General Intuition融3.2亿美元、估值23亿，用打游戏训练agent

← 返回所有文章

加载中...

Video-use：Claude Code不看视频就把视频剪了

相关文章

评论