无限暖暖:AI 数字人微表情背后的技术密码与未来展望
前段时间,叠纸游戏的《无限暖暖》正式公测,细腻生动的人物表现,其实是大量用了数字人的技术。这篇文章,我们就来分析一下数字人技术在微表情下的处理。
随着《无限暖暖》的公测,游戏中暖暖细腻生动的表情变化,她的眼神流转、嘴角微合,眉毛挑动,无数的微表情使她仿佛是一个有着真实情感和生命的少女。让玩家们深刻感受到虚拟角色所蕴含的无限魅力。这不仅彰显了叠纸游戏公司在人物表情刻画上的卓越实力,更引发了我们对 AI 数字人与人类情感互动的深度思考。
不管在动画还是在游戏中,能够用3D技术让写实风格的角色栩栩如生的内容产品,依然是十分缺位的。这几年 AI 数字人正逐渐走进我们的生活。AI 数字人正逐渐融入我们的生活,从虚拟助手到娱乐角色,它们不断拓展着我们对人机交互的认知边界。然而,一个不容忽视的挑战随之而来 —— 恐怖谷效应。当 AI 数字人的外观和行为接近人类,但又无法完全达到人类的自然和真实时,可能会引发人们内心的不安和不适。如何巧妙地跨越这一障碍,实现 AI 数字人与人类之间更加自然、深入的情感共鸣,成为了科技领域亟待解决的重要课题。
图源:《闪耀暖暖》游戏PV
一、叠纸游戏人物表情刻画的出色之处
叠纸游戏在3D人物表情刻画方面表现卓越,以《无限暖暖》为例,暖暖能依据不同情境展现出多样且精准的表情动作。开心时笑容灿烂、眼含笑意;思考时眉头微蹙、眼神专注;惊讶时双目圆睁、嘴巴微张,每个表情都生动传达出当下情绪。哪怕在定格拍照时,也会像真人一样充满各种小动作,而不是僵硬不动。
(图源:《无限暖暖》游戏实机录制)
《恋与深空》借助全 3D 建模,让人物的神态动作更加逼真自然,复杂情感得以细腻呈现,如角色在细微的情感交流时的,掩饰,假装,纠结与挣扎,通过面部表情的细微变化展现得淋漓尽致。
(图源:《恋与深空》游戏实机录制)
《闪耀暖暖》凭借精美建模与丰富表情系统,使暖暖在不同场景中展现出相应情感,搭配时自信满满,面对挑战时坚毅果敢,哪怕是待机时,也会有眼神和微表情变化,极大增强了游戏沉浸感。
(图源:《闪耀暖暖》游戏实机录制)
“我们在意每一个眼神的含义,每一个微表情的潜台词。”——叠纸团队
叠纸公司在面部动捕技术方面采用了多种先进设备和方法,以确保捕捉到的角色表情和动作尽可能真实。尤其特别关注角色的眼神捕捉,因为眼神是传达角色情感的重要手段。通过面部动捕技术,捕捉到动捕演员的眼神变化,并将其应用到3D角色上,使角色能够更准确地反映出细腻的情感和意图,更有真人感,活人感。AI 技术上,他们利用深度学习技术对面部表情进行捕捉和分析,通过训练神经网络识别人脸和动画角色表情,提取角色表情信息,获得动画角色骨骼参数,并结合人脸几何信息对脸部关键点骨骼参数进行修正。
他们在面部动捕技术上的应用不仅提升了游戏中的逼真度,还通过细致的表情捕捉和眼神分析,增强了角色的情感表达能力,使得游戏角色更加生动和真实。叠纸团队在 3D 人物微表情研究上成果显著。《恋与深空》的开发过程中,叠纸团队注重面部表面材质和阴影效果,配合骨骼动画、法线纹理和变形体修型,让微表情动作更加逼真。
(图:叠纸公司的动捕设施)
二、AI 赋能的 3D 人物在人设和情感表达方面的挑战
1. 情感真实性难题
AI 数字人在模拟人类情感真实性方面面临着巨大挑战。人类的情感是内心深处复杂体验与对外界感知的综合反映,其产生机制涉及生理、心理和社会等多个层面的相互作用,是一个极为复杂且内在驱动的过程。例如,一个人在经历失去亲人的痛苦时,不仅仅是表面上的悲伤表情,还伴随着内心深处的痛苦、无助、回忆等多种复杂情绪的交织,这些情绪会通过微妙的微表情、语气变化、肢体语言等多种方式自然流露。
然而,AI 数字人要准确模拟这种真实情感,就必须深入理解人类情感的本质和产生根源。目前,尽管 AI 技术在数据处理和模式识别方面取得了一定进展,但在理解人类情感的微妙之处仍存在很大困难。AI 数字人主要依赖大量数据训练来学习情感表达,但数据往往只能反映表面现象,难以捕捉情感背后的深层次原因和复杂的心理变化。例如,在面对同样的情境时,不同人可能会因为个人经历、性格特点和文化背景的差异而产生截然不同的情感反应,而 AI 数字人很难像人类一样根据具体情境进行灵活而真实的情感表达。
2. 情感连贯性考验
人类的情感在不同情境和时间中具有连贯性,这是由个人的性格和长期形成的情感倾向所决定的。一个乐观开朗的人,在大多数情况下都会展现出积极向上的情感反应,无论是面对日常琐事还是重大挑战,他们的乐观态度会贯穿始终,在表情、语言和行为上都呈现出一致性。比如,在遇到困难时,他们可能会微笑着鼓励自己和他人,积极寻找解决问题的方法,这种积极的情感状态在不同场景中得以延续。
相比之下,AI 数字人要建立稳定的人设和情感逻辑并非易事。它们需要在各种不同的场景中做出符合预设人设的情感表达,否则就会给人一种不真实、不稳定的感觉。例如,一个被设定为温柔善良的 AI 数字人,如果在某些场景中突然表现出冷漠或暴躁的情绪,就会破坏其整体人设,降低用户对其的信任和代入感。目前,AI 数字人在情感连贯性方面的表现还不尽如人意,难以像人类一样在不同情境下保持一致且自然的情感反应。
3. 人设复杂性增加表达难度
成功的人设包含丰富的性格特点、背景故事和价值观,这些元素需要在不同情境中通过微表情和情感表达自然地体现出来。不同的微表情和肢体语言能够反映出一个人的性格特征和当下情绪。一个自信果断的人在做决策时,可能会微微点头、眼神坚定,同时表情严肃专注,这些微表情和肢体动作共同展现出其果断的性格特点。
对于 AI 数字人来说,要准确展现人设的复杂性,需要具备高度的智能和灵活性。它们必须能够根据不同情境和交互内容,精准地选择合适的微表情和情感表达方式。然而,目前的 AI 技术在理解和处理人设的复杂性方面还存在很大的局限性,很难像人类一样根据丰富的内在特质进行自然而恰当的情感表达,从而在一定程度上影响了其在复杂人设塑造方面的能力。
三、虚拟数字人技术架构与关键技术
1. 技术架构概述
虚拟数字人基础技术架构涵盖 “五横两纵”。“五横” 包括人物生成、人物表达、合成显示、识别感知、分析决策等五大技术模块,用于数字人制作交互。人物生成在 2D 和 3D 数字人中有不同体现,3D 数字人需额外使用三维建模技术,当前静态扫描建模为主流,动态光场三维重建技术虽具优势但尚未普及。人物表达包含语音生成和动画生成,动画生成中的驱动技术以智能合成和动作捕捉为主要生产方式,渲染技术进步使数字人皮肤纹理更真实。合成显示涉及终端显示技术,识别感知包括语音语义识别、人脸识别、动作识别等,分析决策依靠知识库、对话管理等。“两纵” 则指 2D、3D 数字人,二者在技术要求和呈现效果上存在差异,3D 数字人相对 2D 数字人在视觉效果和交互体验上更具优势,但制作成本和技术难度也更高。
2. 建模技术:从静态到动态的发展
早期静态扫描建模技术以结构光扫描重建为主,精度可达 0.1 毫米级,但扫描时间长,在友好度和适应性方面欠佳,主要用于工业生产、检测领域。如今,相机阵列扫描重建成为人物建模主流方式,毫米级精度且高速拍照扫描,满足数字人扫描重建需求,国际上如 IR、Ten24 等公司将其商业化用于好莱坞大型电影制作,国内凌云光也成功应用于电影、游戏、虚拟主播等项目。动态光场重建是最新深度扫描技术,可忽略材质直接采集三维世界光线并实时渲染动态表演者模型,包含人体动态三维重建和光场成像两部分,具有采集数据全面、光影效果真实等优势,虽目前技术尚未完全成熟,但已成为数字人建模重点发展方向,微软、谷歌等公司积极开展相关研究,国内清华大学、商汤科技等也在同步推进。
(根据用户脸部生成的车载智能助手 图源:百度数字人)
3. 驱动技术:实现生动动作的关键
嘴型动作的智能合成已应用于 2D 和 3D 虚拟数字人,其底层逻辑是建立在输入文本到输出音频与视觉信息的关联映射上,通过对采集数据的模型训练实现。除嘴型动作外,其他动作如眨眼、微点头、挑眉等目前多采用随机策略或脚本策略循环播放预先录制好的视频 / 3D 动作,未来有望通过智能分析技术实现自动化。动作捕捉技术是目前最成熟且呈现效果最好的动作生产方式,根据实现方式不同可分为光学式、惯性式、电磁式及基于计算机视觉的动作捕捉。光学式动作捕捉通过对目标上特定光点监视和跟踪完成,基于 Marker 的光式动作捕捉常用,精度高但造价高昂且对环境要求高;惯性动作捕捉基于惯性测量单元 IMU,价格相对低廉但精度较低且会产生累计误差;基于计算机视觉的动作捕捉近年来兴起,通过采集及计算深度信息完成,精度较高且被检测对象无需穿戴装备,但受外界环境影响大,算法开发难度也较大。
( 图源:阿里云数字人官网)
4. 渲染技术:突破恐怖谷效应
渲染技术分为实时渲染和离线渲染。实时渲染图形数据实时计算与输出,每秒至少渲染 30 帧,计算资源有限,渲染质量欠佳,适用于对实时性要求高但对画面质量要求相对较低的场景,如小型 APP 等,常用引擎有 Unreal 引擎和 Unity 引擎等。离线渲染图像数据非实时计算与输出,渲染时间长但计算资源丰富、计算量大,渲染质量高,适用于对画面质量要求极高的场景,如电影特效制作等。随着 PBR(Physically Based Rendering)渲染技术进步和重光照等新型渲染技术出现,数字人皮肤纹理更真实,突破了恐怖谷效应,使虚拟数字人在外观和动作上更接近人类,提升了用户的接受度和沉浸感。
(百度数字人叶悠悠 图源:小侃星球app截图)
四、虚拟数字人未来发展趋势与智能座舱应用前景
1. 总体发展趋势
未来虚拟数字人制作技术将朝着更加简单、一体化、自动化的方向发展,采集制作流程有望实现简单化、一体化,通过迭代式提升真实感。例如,同步获取模型、身体、表情等所有数据,无需穿戴专业传感设备,使数字人在特定环境下与真人难以分辨,人们可更加自然地与其交流互动。全双工技术将使数字人具备一次唤醒、多轮对话、智能纠错等能力,实现多场景、多领域的融合,交互方式更加智能化,逐步具备 “看”“听”“说”“懂” 等全方位能力,紧跟时代潮流,深入融入影视、金融、文旅等各个领域,充分发挥应用价值,其市场价值也将不断得到释放。同时,随着 90 后、Z 时代消费者逐渐拥有自主消费能力,他们对二次元、动漫人物形象的消费水平稳步提升,为虚拟数字人产业带来新的发展机遇,诸多品牌也乐于与虚拟数字人合作,挖掘其商业价值。
2. 在智能座舱中的应用前景
在智能座舱领域,AI 数字人具有广阔的应用前景。从交互体验层面来看,智能座舱车载数字人可以借助高精度 AI 检测技术实时捕捉乘客动作和表情,实现与数字形象的实时互动,使乘客可通过肢体动作或语音指令与虚拟角色互动,享受沉浸式娱乐体验,增强驾驶过程中的情感陪伴感,减少疲劳。
在功能拓展方面,未来 AI 数字人将成为智能座舱的全方位智能助手,不仅能处理简单任务,如接电话、播放音乐,还能承担复杂任务,如根据实时路况、驾驶者偏好和车辆状态提供个性化导航建议,在车辆故障或保养时及时提醒并提供解决方案和服务信息。
从视觉呈现角度,全息投影技术将为 AI 数字人带来全新展现形式,如车载全息数字人有望成为 “人 — 车 — 家” 三屏融合的重要一环,基于云端及本地动态行为数据库,根据不同场景驱动虚拟人形象,营造充满科技感和未来感的氛围。
此外,AI 数字人还将在智能座舱的个性化定制方面发挥重要作用,用户可根据喜好定制其形象、声音、性格等特征,使其成为专属智能伴侣,同时在提升驾驶安全性方面也具有巨大潜力,可精准监测驾驶者状态,在疲劳或不适时发出警告并采取安全措施,有效降低交通事故发生率。
(图:领克的AI虚拟助理JOJO在聆听、发言时都有相应的动作适配,形象生动)
五、总结
微表情和情感表达在人类交流和心理学研究中占据重要地位,相关研究成果为 AI 数字人的发展提供了重要参考。叠纸游戏在人物表情刻画上的成功经验,展示了当前在微表情呈现方面的较高水平。然而目前,AI 数字人在微表情和情感表达上还是有很大的不足,仍面临诸多挑战。未来,可以借鉴游戏业的先进经验,更深入的结合心理学研究成果,进一步探索人类情感产生和表达的内在机制,以及先进的技术手段,如持续优化建模、驱动和渲染技术等,不断提升 AI 数字人的情感表达能力。
从行业发展来看,虚拟数字人产业已呈现出蓬勃发展的态势,市场规模不断扩大,技术不断创新,应用领域日益广泛。随着技术的不断进步和市场需求的持续增长,AI 数字人有望在更多领域发挥重要作用,为人们带来更加真实、自然、富有情感的交互体验,实现与人类更加深入的情感共鸣,最终跨越恐怖谷效应,成为人类生活和工作中不可或缺的一部分。叠纸团队在技术研发上的不断探索和创新,为游戏行业及虚拟数字人产业的发展提供了宝贵的借鉴和启示。
那么,你认为 AI 数字人在未来的发展道路上,还会在哪些领域产生深远影响?在提升情感表达能力方面,还有哪些技术与人文的深度融合?欢迎大家在评论区分享自己的见解,让我们共同见证 AI 数字人的成长与变革,一起探索这个充满无限可能的数字未来!
本文由 @INFP怡伶设计 原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自 Unsplash,基于 CC0 协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
- 目前还没评论,等你发挥!