智能剪辑功能调研报告:详解抖音的音乐卡点模式
本文通过对市面上智能剪辑功能进行体验,挖掘不同产品的功能模式,还原产品的逻辑和结构,并通过竞品对比分析,总结了智能剪辑功能的迭代方向。
01 调研背景
1. 什么是智能剪辑?
传统的视频剪辑,需要人工进行大量后期处理工作,包括手动剪辑、拼接、选择音乐、增加转场、调色、字幕等,门槛较高,且耗时费力。
而智能剪辑则使得整个剪辑过程更加智能化、标准化、简单化,可显著降低创作门槛,提升普通创作者的创作意愿和创作能力。
市面上主流短视频产品已经普遍开发了智能剪辑功能,其中核心优化了以下三个关键环节:
(1)判断素材的类型,智能组合剪辑;
(2)智能匹配音乐,结合智能剪辑,可生成音乐卡点视频;
(3)智能增加动效,包括转场、特效、滤镜等丰富效果。
2. 为什么要做智能剪辑?
先上结论:智能剪辑功能可以有效降低普通用户的生产门槛,帮助用户进行低成本地剪辑。
首先,说一下为什么主流的短视频产品中有智能剪辑功能,而制作长视频的专业剪辑软件基本没有这个功能。
一是因为用户的正向选择,使用专业剪辑软件的用户整体上有一定的制作能力,而日常使用短视频APP用户的制作能力普遍偏低,更适合使用轻量的智能剪辑功能。
二是载体本身的原因,长视频更多是叙事结构,适合讲故事,前后逻辑关系紧密,需要结合人的思考和创意,而机器智能暂时无法通过声音、文字、图像等素材理解其逻辑。
但是短视频则要自由得多,偏个人向主题的也较多,比如自拍、旅游、美食等等,不需要复杂的剪辑。
其次,再看一下智能剪辑功能对短视频产品本身的收益。
对短视频产品来说,绝大部分用户是消费者,只有少部分用户是生产者,消费者们会去消费生产者们创作的内容,消费者们虽然有一定的创作意愿,但创作能力较弱,消费者转变为生产者的成本也较高。
即便是UGC生态的短视频产品,也会逐渐从UGC发展为PGC,中间态就是所谓的UPGC。
在这个过程中,大量普通用户生产的低质量、低价值内容会被筛选掉,而专业用户生产的高质量、高价值内容会获得更多曝光,到最后,我们在短视频产品中看到的就基本是专业用户生产的内容了。
那为什么还要做针对普通消费者或者说尾部生产者的智能剪辑呢?
因为普通用户依旧存在生产需求,有一定的生产意愿,会拍摄旅游、美食或者记录重要的生活事件等等,而制作视频后常常会发布在朋友圈、微博、抖音、快手等社交网络中,或者直接分享给自己的家人朋友。
也就是说生产视频需求的背后,本质是社交需求。
这和消费视频完全是两个逻辑,帮助头部创作者进行生产,是为了普通消费者有内容可看,但激励并帮助普通用户生产内容,则是促进用户使用产品的一个重要手段,同时可以丰富UGC生态,最终涌现出专业生产者。
总结一下:
(1)目标用户:尾部生产者,典型特征是低粉、无固定创作主题、作品偏个人向。
(2)使用场景:拍摄旅游、美食或者记录重要的生活事件后,想要做一个短视频分享到自己的社交网络,但是专业的视频剪辑软件太复杂,不太会用,也没有时间去琢磨。
(3)满足需求:表面满足了小白化制作短视频的需求,本质是满足了社交需求、炫耀心理。
02 调研目标
了解市面竞品智能剪辑功能的优劣,并结合实际的业务场景与技术能力,输出可落地的产品方案。
03 调研详情
1. 竞品速览
头部竞品:抖音、快手
腰部竞品:微视、VUE、美拍、小影
跨域竞品:大疆、Quik
根据上表的概览,会发现【智能剪辑】功能的核心要素有三个:剪裁、音乐和视觉。
首先,算法会对素材内容进行分析,识别素材的场景,然后匹配对应的音乐和动效。
每个音乐都会有相应的节拍点,根据节拍点,会对每段素材剪裁为一定的播放长度,然后拼接在一起。
这里会出现另一个问题,就是怎么找到每段素材中的高质量精彩片段?
因此也需要借助算法,识别和筛选素材中的精彩片段进行合理剪裁。
而视觉效果包括转场特效、画面装饰、滤镜、贴纸等,也需要识别素材的对应场景进行匹配。
通过上述的分析会发现,根据剪裁、音乐、动效三者之间的关系,市面上主流的【智能剪裁】功能的模式有三种:
(1)【音乐可选+无动效】:音乐根据素材进行匹配和推荐,可手动切换,素材会根据音乐再次剪裁,无转场、页面装饰等视觉效果,典型代表是抖音;
(2)【音乐固定+动效固定】:音乐和动效绑定,两者都是固定的,不能组合,也就是集成为“模板”,每个模板的剪裁也是固定的,此时需要用户自己手动选择模板,典型代表是微视;
(3)【音乐可选+动效可选】:音乐根据素材进行匹配和推荐,可手动切换,素材会根据音乐再次剪裁,同时转场、页面装饰等视觉效果集成为统一风格的“主题”,可进行切换,典型代表是快手和VUE。
2. 核心竞品详述
根据以上分析,音乐智能匹配和视频精彩片段智能选取,这两个关键环节主要依靠算法解决,对于用户而言相当于黑盒。
而另一个关键点,怎么依靠音乐节拍点划分素材的长度,则有规律可循,因此,下文将针对抖音的音乐卡点模式进行简单实验,推测其智能剪裁规则。
整体分为三个环节:导入素材、制作流程、发布。
导入素材:可同时导入图片和视频,素材总数的上限是35。
制作流程:默认音乐卡点模式,会根据匹配的音乐,对素材进行裁剪,也可以手动调整素材片段的顺序,但是因为每个音乐的卡点位置是固定的,因此每个素材片段剪裁的长度也是固定的,只能调整每段素材剪裁的位置。
举个例子,我上传了4段视频,基于匹配的音乐自动剪裁后,4段素材分别的长度为:5.6s、4.4s、4.4s、5.6s。
现在我将第4段素材(有人像)的位置从第4个位置移动到第2个位置,然后第4段视频(有人像)的长度从5.6s转变为4.4s,也就是说根据素材的数量会计算音乐卡点的位置,分配相同数量的位置,每个位置的长度是固定的。
接下来,将通过简单实验,归纳总结其裁剪规则。
在此次简单实验中,通过将素材总时长逐渐增加,从3秒到890秒,我们可以看到以下规律:
(1)素材数量>=2时,才能进入【音乐卡点】模式;
(2)素材总时长30秒左右是临界点
- 总时长在30秒以下的素材,裁剪后保留的比例为55%~60%;
- 总时长在30秒以上、50秒以下的素材,裁剪后保留的时长逐渐贴近20秒,保留的时长不再有大幅的增加;
- 总时长在50秒以下的素材,裁剪后保留的时长稳定在20秒左右,因此保留的比例会迅速下跌;
(3)抖音导入素材的限制是,每段素材必须大于1秒,且素材的总数量不能超过35个;
- 通过实验可以看到,剪裁后的总时长上限为20秒,在最多35段素材的情况下,平均每段素材剪裁后的长度为0.57秒,因此可见”35“基本接近了维持视频最终效果的极限,素材数量再增多,将会影响视频效果;
- 随着素材数量和素材时长的增加,每段素材剪裁后的时长将逐渐接近1秒,直至1秒以下,因此需要限制每段素材必须大于1秒。
04 结论与方案
本次报告通过对市面竞品的扫描,总结归纳了市面上主流【智能剪辑】功能的三种模式:
(1)【音乐可选+无动效】:音乐根据素材进行匹配和推荐,可手动切换,素材会根据音乐再次剪裁,无转场、页面装饰等视觉效果,典型代表是抖音;
(2)【音乐固定+动效固定】:音乐和动效绑定,两者都是固定的,不能组合,也就是集成为“模板”,每个模板的剪裁也是固定的,此时需要用户自己手动选择模板,典型代表是快手、微视;
(3)【音乐可选+动效可选】:音乐根据素材进行匹配和推荐,可手动切换,素材会根据音乐再次剪裁,同时转场、页面装饰等视觉效果集成为统一风格的“主题”,可进行切换,典型代表是VUE。
并针对抖音的音乐卡点模式进行了拆解,通过实验推测其智能剪裁的规则:
(1)总时长在30秒以下的素材,裁剪后保留的比例为55%~60%;
(2)总时长在30秒以上的素材,裁剪后保留的时长逐渐贴近20秒;
(3)导入的每段素材必须大于1秒,且导入的素材总数量不能超过35个,这样才能保证最终的视觉效果。
但是只了解其规则是不够的,需要能够输出为可落地的方案才有价值。
接下来,我将结合多个竞品的功能亮点,并删繁就简,初步策划足够简单、足够好用的【智能剪辑】功能。
- 建议采用【音乐可选+动效可选】的模式,即根据上传的素材进行场景识别,智能匹配音乐和相关的视觉主题。
- 素材需根据所匹配的音乐进行智能裁剪,用户手动更换音乐,需再次裁剪。
- 视觉主题则采用通用样式,包括通用性的页面装饰、滤镜和转场特效,用户可手动更换,对素材剪裁没有影响。
- 用户手动剪裁素材或调整素材顺序需要客户端的渲染能力,成本较高,可考虑在后续迭代。
本文由 @岳小鱼 原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自 Unsplash,基于CC0协议
更多产品思考,欢迎关注微信公众号,搜索:岳小鱼