探讨视频 Agent 在数字世界中的深层含义与影响力
周末和一位在字节做视频 Agent 的 PM 聊天,想到了一个好问题。
这两天 Lovart、Medeo 等图像、视频 Agent 接连冒头。
但,除了让人人都能“一键做爆款”、“数字人生成”、“出大片”这些很有用,但离生活很远的生产力应用以外,「视频 Agent」还有什么现实意义?
对此,我有些个人想法,既有技术应用,也有人文思考。想以一种更轻松、更直接的对话风格,和你探讨。
请先看一支印象非常深刻的视频
这是一支在 B 站有 227 万播放量的 Vlog,片名为《我用十年积蓄,拍了独属于我的 One Last Kiss》。
普普通通的素人 UP,用他自己普普通通的日常素材,做了一支并不普通的视频,拿下了全站的「每周必看」。
它的弹幕区是这样的,可以感受一下:
评论区是这样的:
充满了人与人之间的真情连接与感动。——「Peace & Love !」
🧐 我不确定你们看完后是否有所触动?
会觉得这个视频绝了吗?(如果是 EVA 粉的话,可能震撼效果会翻倍吧
反正我每次回看这支视频时,总会觉得内心某处被狠狠击中。
尤其是,片子中 03:33 开始的快速闪回的画面,有种莫名的感动。(但请不要跳着看,效果会差)
甚至还想,要是能给自己做出这种视频,那该多好?
强烈建议先前往 B 站,在原版视频中,感受弹幕和评论区的真实氛围,再继续阅读本文。
原视频地址:https://www.bilibili.com/video/BV1pX4be5EJ3/
当推荐算法与 AI,对“人”发起冲击
相机的发明,旨在捕捉和保存现实世界的影像,使人们能记录和回顾那些瞬间。
有谁还记得「抖音」、「视频号」,这两家的 slogan 是“记录美好生活”和“记录真实生活”?
经过这两年的市场和算法的调教,现在提到“做抖音”、“做视频号”,我脑子里的刻板印象只剩“爆款对标”、“立人设”、“摆拍”和“擦边起号”。
再到在 AI 应用领域,也能看到 Coze 里一溜的“爆款创作”,莫得半点真人感情。
coze 商店创作类的应用排序
(也可能是我自己的推荐算法问题吧,保命+1
当 AI 能完整地生成一整支视频时,我们只考虑用视频 Agent ,无中生有地制造更多同质的的“奶头乐”吗?
真人内容社区,会演变为不需要“人”的内容快消品批发市场么?
至少我个人不太希望这样。
“刷”短视频这个字眼,已经充满了暗喻。
在内容平台中,每个人制作的照片、视频,不再是独一无二的个人印记,而是可刷可不刷的“消遣物”。
我们更多的不再关注作品背后的“人”、也越来越难找到作品背后独一无二的“故事”,遑论被其所连接、触动。
放眼推荐流,更多是“搞笑段子”、“爆款爽剧”、“可爱猫狗”、“擦边卡点”等类目的“内容快消品”。
🤫 那,不如把「关注」功能删了吧?只要推荐算法能把“我所上瘾”的内容品类精准地推到我面前,又要关注功能有何用?
🤫 那,不如把「发布」功能删了吧?你看反正也快到 AIGC 批量生成的“新时代”了?
当然,以上论述是有失偏颇的、不全面的。
也有很多 UP 在真实记录自己的见闻,他们也有很多的忠实关注者。
我最近就很喜欢 B 站的 @安然Nadia、@理论派甜点师小鱼、@陈师傅路亚,都很有自己的特点。(狂推 @安然Nadia 的碎碎念 Vlog)
从技术面来看,视频 Agent 应该能做到什么?
要理解视频 Agent 的能力边界,要同时考虑到 LLM 多模态理解、推理、文本生成,以及文生图、图生视频、Function Calling 的能力。
之前在 2050 大会,我分享了一张「AI 辅助视频创作」的框架,来呈现我理解的视频 Agent 应用:
抛开“爆款”、“数据”部分不谈,可以关注以下这几个关键环节:
- 批量理解素材:用户打包导入要制作“故事”的图片、视频素材(比如某次旅游的素材、大学四年的照片回忆、孩子各年龄段的照片等),多模态 LLM 通过音轨字幕 or 画面图像,理解每段素材的含义与质量。
- 大纲分镜设计:根据素材自动推荐,或根据用户期望的故事,推理并生成作品的大致思路或分镜脚本。可以是给用户确认,也可以免打扰直接进入下一步。
- 自动剪辑:正式操作用户的素材,通过 FC 操作剪辑功能,排布素材顺序,剪辑素材长度,自动套用转场效果,逐步完成剪辑。
- AIGC 补全:在遇到素材不足(比如需要把图片变成一段渐远、人物走动的视频,或生成一段配套抽象的 CG 动画),利用文生图、图生视频的手段,进行 AIGC 补全。
- 配乐、配音:可以是在一段完整的音乐给剪辑上素材,也可以是为边剪边配上不同的音乐、语音片段。
——至此,不难发现,现有的 AI,在理论上已经能“套壳”出相当完整的视频创作能力。
当视频 Agent 服务铺开,我们都能拥有一支虚拟的视频创意与剪辑团队。
甚至,视频 agent 不仅提供视频剪辑的服务,还能提供拍前指导。
“拍同款”不再是套用视频卡点模板,而是利用多模态推理,把某条心动视频,分解出拍摄取景点位和拍摄手法,形成完整的旅拍指引。
正如《One Last Kiss》的官方 MV,歌手 @宇多田光 本人 6 岁的儿子,在 @庵野秀明 导演下,参与了 MV 的部分掌镜拍摄,获得日本境内最大音乐庆典的“最佳概念视频”。
凭借视频 Agent 的帮助,我们也能超出自身摄影、审美的限制,更好地创作视频、传递我们的感情与经历。
【官方MV】《One Last Kiss》:https://www.bilibili.com/video/BV1Sg411w7T9/
视频 Agent 的大众化意义
所以,视频 Agent 的意义,绝不只在于追逐流量或商业交付,也不只是套用爆款套路或进行影视设计。
而是有更多机会唤醒不同用户手机、云盘里,成千上万的零散照片和视频片段。
以往,当我们在 P 图时,比如:
- 美食摄影:我们会把照片的饱和度打高,色调更暖更浓烈;
- 伤心时:我们会把照片的颜色调得更蓝、更灰调;
- 夏季日本旅行:我们会把影片色调,调得对比更加明亮清新(过曝)的状态,以还原“日式风格”。
这都是通过滤镜手段,赋予照片更多特征点,把当时的记忆感受更加完整地呈现出来。
那视频 Agent 的意义就更丰富了。
每个人都能摆脱“剪辑的繁琐、画面导演的难度”,只需要用 AI 就能把自己记录过的素材重组为更完整的回忆。
它会有恰到好处的音乐、更好的叙事逻辑与分镜。
这些重组的“回忆录”,会取代零散的、都不太会去翻看的数千张照片和视频。或是美好丰富的旅行假期、或是一晃而逝的四年大学生活、或是淡淡酸涩味的半段恋情。
它们终将重新勾连,不仅是每个人独特的完整回忆,也可能成为家庭内、朋友之间传递情感和记忆的全新载体。
我们虽无“古代君王”之命,也不是拥有任何丰功伟绩的、需要立传的“重要人物”,但 AI 却能帮助我们每个普通人,拥有了更好、更身临其境的自我记录方式与人生回忆。
——这甚至比 Apple Vision Pro 的 Live Photo、空间视频会有更好的效果。
AI 视频 Agent,恰恰提供了这个工具,让我们能更好地“看见”自己的经历。
当人们再想起某个经历的时候,自然而然会去看 AI 重组的那段“故事”,这是非常有价值的,能够让人更加身临其境地回到原来的感动中。
而对于抖音、视频号来说,它们终于能成为记录“人”生活的社区。不再受剪辑技术、审美的限制,每个用户都能全然地分享记忆,连接感情。
比如,同样是《One Last Kiss》的风格,B 站还有很多其他的优秀 vlog 创作。
- 在东京,我拍出来了独属于我的《One Last Kiss》:https://www.bilibili.com/video/BV1AwYuegE5L/
- 含痞量极高 庵野秀明风格拍摄剪辑 EVA主题曲 宇多田光 One last kiss:https://www.bilibili.com/video/BV18Z4y1C7Eu/
- 哪个女孩不想在日本拍 One Last Kiss 呢?:https://www.bilibili.com/video/BV1ZG41117qx/
在这些视频中,不再是给一段 BGM 拼凑上一段段不明所以的过场动画(短视频的实质是给快节奏 BGM 配画面)。
而是曾经经历的或美好、或酸涩、或苦痛的记忆瞬间,和一段与彼时 or 此刻心境契合的心情音乐交织在一起,让照片、视频不仅仅是回忆,更是一种可以被反复品味的情感体验。
这是我在方向性上的判断。
至于如何在技术上实现更加稳定的效果、如何确保 AI 的审美能力?
你肯定听过这类话:“上次去 xx 旅游,都半年了,还没开始剪 Vlog,素材太多了”。
那实际上,对于大多数人来讲(包括我们的父母、长辈),他们首先没精力去操作剪辑工具,更没能力去思考脚本。
即使是现阶段的 AI 来做,出来的质量也一定是比没有 AI 更好的。
况且,AI 还能在制作过程中,补充一些缺失的内容。它可以创作漫画插图,也可以直接用首尾帧的方式补全一段人物的动作过程。
这些都能比嵌套现有的简单视频过程有更好的效果,它会让整个故事串联得更加完整、沉浸。
我们应该相信这个方向,因为这是我们都所需要的。
今年 AI Agent 与 AIGC 技术,已经给出了去年做不到的水平。同样的,明年也会有今年做不到的新性能和审美水准。
只要方向没问题, AI 技术发展符合我们的人文需求,且技术理论可行性已经被验证,剩下只要等好事水到渠成就行。
小结
我们总会乐此不疲地“刷”他人展示的美好生活,也会在发布朋友圈时,学学调色指南,打磨自己的文案。
其实想要的是什么呢?
也还是希望自己也去享受这种美好生活,并像尽可能地记录自己的精彩生活,向朋友还原当时的体悟。
AI 视频 Agent 可以在这个方向,给予大多数人极大的帮助。
人生本身就是由一个个自己的故事交织而成,而不只是一张张终将“蒙尘”照片、视频片段。
利用 AI Agent 的创作与剪辑能力,把它们串联起来,人的故事自然回显。
我们终于开始记录故事,而不再是截取某幅碎片画面。