数字人短视频现状
数字人技术现在已经相对比较成熟了,在短视频上的应用场景上更是如此。那这个行业的情况怎样?市场和客户、需求都是什么呢?我们来看看作者的分享。
短视频是目前数字人应用相对成熟的场景。就是用AI复刻出一个真人的数字分身,然后只需要输入文本,就能得到这个数字人说这段文本的视频。可以大大提高口播博主的视频制作效率,不用化妆和拍摄录制,直接将准备好的文案输入到系统中,视频就做好了。
一、客户类型
政务类的客户会用数字人做短视频,比如公安反诈骗宣传、消防宣传、普法教育等。另外还有中小b客户,比如保险经纪人、医生、律师、教师、自媒体创作者等,一般会定制数字分身,用数字分身快速批量生成口播短视频,发布到抖音等短视频平台,打造个人IP,引流获客。比如抖音大v刘润的一部分视频,就是用数字分身制作的。
短视频平台比如抖音,对数字人短视频不会额外多给流量,也不会单独减少流量。只要是高质量的视频,不论是不是数字分身合成的,都会得到平台的推荐。如果用真人出镜的短视频已经拿到了结果,那么数字分身可以大大节省创作者录制和制作视频的时间。
二、客户需求
- 真假难辨达到真人出镜的效果:数字人效果是核心。外貌、声音、口型、说话时眼睛和面部表情、肢体动作要足够自然,画面清晰,达到跟真人视频一样的效果。抖音的态度是可以用数字人,但得是高质量的内容,且注明ai生成)。清晰度1080p。
- 数字分身制作:对于需要打造个人ip的客户,以及抖音上的kol,需要定制形象,包括形象和声音克隆。形象克隆后需要保障使用的安全性,自己的数字分身不能被他人滥用。
- 高效的视频制作工具:节省制作口播视频的时间,输入文案就能生成媲美真人的口播视频。
- 合适的价格。一般按合成的视频时长收费。目前一分钟的视频,已经从之前的10多元,降到现在5元左右,后续还有下降空间。如果客户定制了自己的数字分身,可以直接送几百分钟的时长包。
三、技术现状
1)形象:数字人形象定制费用下降,定制过程变简单。数字人分为2d真人和3d类型。真人的数字分身,外观几乎和真人分不出来,真人90%+的相似度。3d写实风格的数字人,已经可以做到愉悦的视觉观感,常见用途是给大公司做代言人,出代言海报或者视频。效果好的3d数字人价格都得几十万,甚至上百万,但相比请明星的代言费,简直九牛一毛。
2)驱动能力:包括数字人的口型、面部表情、肢体动作。好的厂商的口型准确度高,和真人说话的口型几乎一样。目前2d真人数字人的面部表情,上半身的肢体动作,是基于录制素材中面部表情和肢体动作的循环播放,也和真人几乎一样。3d数字人的动作和表情可以做,但是数量少,靠人工制作,效果自然的价格就高,整体稍僵硬。现在行业内还不能做到,让数字人根据说话内容的语义,通过声音或者表情和肢体动作传达情绪,情绪传达相比真人有较大距离。
3)语言理解能力:语言理解已经从之前的知识库发展到了大模型,接入大模型的数字人,对文本语言的理解明显提升,完全可进行开放域对话。
四、数字人短视频产品功能
形象克隆:除了照片生成数字人之外,形象克隆目前都需要线下手工操作,即用客户提供的视频训练出数字分身。
声音克隆:还是用客户提供的说话视频,用ai克隆出客户的音色。
短视频制作工具:
- 核心功能:形象&声音克隆的视频素材上传、短视频元素设置(背景+模特+声音+播报文本)、合成和下载视频
- 重大功能:字幕、视频素材添加、模特自定义设置(位置/大小/形状)、视频效果配置(横竖屏、清晰度)、真人音频上传
- 辅助功能:短视频素材资源(背景图资源/字幕样式资源/贴纸资源/图片和视频资源/配乐资源)
五、市场现状
数字人做短视频,确实有市场需求,抖音上不断有创作者使用数字人做短视频。尤其近一年来,技术进步带来形象定制费用大幅下降,更多人能用得起。2023年一下爆发出现了很多数字人短视频厂商,这里面有自研能力的厂商少,有些仅贴牌代理。所以市面上的数字人产品,鱼龙混杂,产品良莠不齐,价格较乱。各厂商提供的功能差不多,但数字人视频的效果和软件体验有差异。
2023年有很多厂家进来做这个,但根据出门问问相关负责人透露的信息,目前数字人公司几乎处于投入阶段,大部分公司的投入远远大于收入,要盈利可能还需要一两年时间。国内做数字人短视频的头部,从视频效果和市场占有率的角度,个人认为是硅基。据硅基消息,8000元1个的克隆,他们卖了上万个,头部厂商的营收大概就是这样。
本文由 @乐活小宇宙 原创发布于人人都是产品经理。未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
形象克隆,即3~5分钟视频训练数字人这种技术,目前市场价继续降到了5千元左右