Video-use:Claude Code不看视频就把视频剪了
browser-use,就是那个做网页自动化agent、被全网fork的团队,刚发了一个video-use,挺巧的。你把原始素材丢进一个文件夹,跟Claude Code聊几句,它给你吐回一个final.mp4。自动剪掉口头禅和废话停顿,每段自动调色,每个剪辑点加30毫秒音频淡入淡出,烧字幕,还能用Manim、Remotion、PIL生成动画叠层。
它能跑起来的关键trick是:模型根本不看视频。它读两层东西。第一层是ElevenLabs转出来的逐词时间戳加说话人标注。第二层是一个“时间线视图”工具,只在它要决定某个剪辑点的时候,才按需渲染那一小段的胶片帧加波形图PNG给它看。这样一来,剪一个20分钟的视频就变成了一个文本问题,而不是视觉问题,又便宜又快,这就是它能用起来的全部原因。
它是以Claude Code skill的形式发的,一个SKILL.md软链进你的skills目录就行,在Codex、Cursor、OpenClaw里也能用。这又是OpenMontage那个故事:创意生产正在变成agent拿一个skill文件就能干的事,而不是你在时间线上一帧帧抠的事。老实说一句caveat:它太新了,还没发正式release,所以把它当成一个很锋利的“未来长这样”的demo,而不是成品。地址:github.com/browser-use/video-use
← 返回所有文章
它能跑起来的关键trick是:模型根本不看视频。它读两层东西。第一层是ElevenLabs转出来的逐词时间戳加说话人标注。第二层是一个“时间线视图”工具,只在它要决定某个剪辑点的时候,才按需渲染那一小段的胶片帧加波形图PNG给它看。这样一来,剪一个20分钟的视频就变成了一个文本问题,而不是视觉问题,又便宜又快,这就是它能用起来的全部原因。
它是以Claude Code skill的形式发的,一个SKILL.md软链进你的skills目录就行,在Codex、Cursor、OpenClaw里也能用。这又是OpenMontage那个故事:创意生产正在变成agent拿一个skill文件就能干的事,而不是你在时间线上一帧帧抠的事。老实说一句caveat:它太新了,还没发正式release,所以把它当成一个很锋利的“未来长这样”的demo,而不是成品。地址:github.com/browser-use/video-use
评论