交互型数字人发展现状
作为AI的应用场景之一,数字人在市场上的普及度比大模型高很多。可以作为智能客服,解答业务问题或者办理业务,推荐产品。那这个行业现在发展如何了?我们来看看作者做的分析。
交互型数字人是指能与人类进行实时交互对话的数字人,可以作为智能客服,解答业务问题或者办理业务,推荐产品。中国电信app首页的AI筱翼,是一种常见的数字人智能客服,电信掌上营业厅功能很多,部分功能不容易找到,通过数字人语音交互可以直达业务页面。talkie对话界面也有一个形象,但是形象在对话中一直是静态的,不属于交互型数字人。
一、交互型数字人基本原理
可交互的数字人,主要原理是先通过照片或视频生成数字人,对话时通过asr识别用户输入的问题,然后问题被发送给数字人大脑(传统bot知识库或大模型)获取答案,再通过tts将答案转换成音频,通过音频驱动数字人的唇部和面部,形成数字人说话视频,实现真人与数字人的对话。
数字人的驱动能力包括唇部,面部表情和肢体动作。通过音频驱动数字人唇部和面部变化,唇形准确率现在都比较高,数字人说话时口型和音频能对上,口型不细看基本没有破绽。数字人的肢体动作来源于提前制作好的动作库。制作数字人形象时,可以定制常用的动作,比如点赞、比心、手势引导等动作,将动作和数字人说话内容做好关联,数字人说话时就会触发这些动作,肢体动作和面部表情使数字人说话时更接近人类,更自然。2D真人数字人和3D数字人都可以实现实时对话,但两者在数字人制作渲染、推理方面,是完全不同的技术路径。
二、客户群体
整个交互型数字人行业的服务对象,目前还是to B大客户,主要为银行/证券/保险/运营商/政务行业等客户提供解决方案,最终的落地形式有嵌入手机app,或线下大屏。目前数字人客服的渗透率还不高,即便金融行业大公司也还处于数字人应用的探索和试点阶段。
在生活中我们能体验到的,有中国电信app上的AI筱翼,部分城市比如深圳的一些地铁站有数字人大屏,承担真人客服的功能,银行线下网点的大屏数字人大堂经理。项目价格一般可达百万级,市场上有数字人制作/驱动/NLP和语音全链路能力的厂商不多,落地一般由多家厂商参与完成。
这次大模型的春风也刮到了数字人领域,在大模型的应用畅想中,C端一般会提到用数字人作为个人智能助手或者数字人陪伴聊天,但是可交互的数字人目前价格至少几万,加上缺少实际场景,所以市场上to C的数字人产品很少。来画出品的AI相框是少见的to C数字人,本质是提供数字人形象和声音定制服务,通过一张照片生成数字人,以相框作为数字人的硬件载体,实现实时对话。
图片来源于网络
三、行业现状和挑战
根据某研究机构的公开数据,2022年整个数字人行业的市场规模将近百亿,预计2025年将达到500亿左右。个人推测交互型数字人目前的市场规模数十亿。
1、数字人智能客服对客户的真实价值有待检验。
目前数字人客服对客户来说,属于锦上添花,有时只是一个噱头,还不能替代真人客服降本增效。数字人是一个交互入口,真正能为客户解决的实际问题有限。
在业务咨询场景,传统的NLP只能进行封闭域对话,被调侃为人工智障;现在基于大模型和本地知识库,涉及业务问题基于提供的知识库回答,非业务问题用大模型回答,数字人确实智能了不少,但幻觉问题并未完全解决,部分敏感场合如果编造答案,对企业有较大的负面影响。而在业务办理场景,不论是之前的文本智能客服,还是现在的数字人客服,基本没有办理复杂业务的能力。
2、实时交互成本高
客服场景一般使用真人数字人,需要云端渲染,每次回答都需要实时生成一个视频,再结合实际客服的高并发场景,导致实时交互消耗的服务器资源多,交互成本高。
3、数字人的表现力,跟真人相比比较生硬。
当前数字人表情和动作,2D真人类型的靠录制,没录制过的表情和动作数字人不会做。3D类型的靠动画师手动制作,生动性依赖动画师的专业水平,手动制作高质量的动作需要的时间长。有限的动作和表情,让数字人在播报大量内容时,显得动作重复单调,缺乏情感。
好消息是大模型在视频生成上不断进步突破。阿里最新的emo模型效果看起来很经验,可以根据音频,直接生成头部运动自然,和面部表情自然的说话视频。这一新技术的应用,可以显著提升数字人对话时的自然程度,解决数字人表现生硬的问题。非常期待能尽快应用到数字人领域。
四、结语
交互型数字人的智能程度取决于背后的大模型,目前垂直行业大模型的落地应用还需要时间。另外受限于实时交互成本高,以及数字人表现生硬问题,交互型数字人还处于行业早期,实际应用不多。随着大模型技术的不断发展,相信这些问题会不断改善,数字人会真正走进我们的生活,为行业和个人赋能。
本文由 @乐活小宇宙 原创发布于人人都是产品经理。未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
- 目前还没评论,等你发挥!