无限暖暖：AI 数字人微表情背后的技术密码与未来展望

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

无限暖暖：AI 数字人微表情背后的技术密码与未来展望

怡伶设计心理

2024-12-16

1 评论 1978 浏览 2 收藏

22 分钟

前段时间，叠纸游戏的《无限暖暖》正式公测，细腻生动的人物表现，其实是大量用了数字人的技术。这篇文章，我们就来分析一下数字人技术在微表情下的处理。

随着《无限暖暖》的公测，游戏中暖暖细腻生动的表情变化，她的眼神流转、嘴角微合，眉毛挑动，无数的微表情使她仿佛是一个有着真实情感和生命的少女。让玩家们深刻感受到虚拟角色所蕴含的无限魅力。这不仅彰显了叠纸游戏公司在人物表情刻画上的卓越实力，更引发了我们对 AI 数字人与人类情感互动的深度思考。

不管在动画还是在游戏中，能够用3D技术让写实风格的角色栩栩如生的内容产品，依然是十分缺位的。这几年 AI 数字人正逐渐走进我们的生活。AI 数字人正逐渐融入我们的生活，从虚拟助手到娱乐角色，它们不断拓展着我们对人机交互的认知边界。然而，一个不容忽视的挑战随之而来 —— 恐怖谷效应。当 AI 数字人的外观和行为接近人类，但又无法完全达到人类的自然和真实时，可能会引发人们内心的不安和不适。如何巧妙地跨越这一障碍，实现 AI 数字人与人类之间更加自然、深入的情感共鸣，成为了科技领域亟待解决的重要课题。

图源：《闪耀暖暖》游戏PV

一、叠纸游戏人物表情刻画的出色之处

叠纸游戏在3D人物表情刻画方面表现卓越，以《无限暖暖》为例，暖暖能依据不同情境展现出多样且精准的表情动作。开心时笑容灿烂、眼含笑意；思考时眉头微蹙、眼神专注；惊讶时双目圆睁、嘴巴微张，每个表情都生动传达出当下情绪。哪怕在定格拍照时，也会像真人一样充满各种小动作，而不是僵硬不动。

（图源：《无限暖暖》游戏实机录制）

《恋与深空》借助全 3D 建模，让人物的神态动作更加逼真自然，复杂情感得以细腻呈现，如角色在细微的情感交流时的，掩饰，假装，纠结与挣扎，通过面部表情的细微变化展现得淋漓尽致。

（图源：《恋与深空》游戏实机录制）

《闪耀暖暖》凭借精美建模与丰富表情系统，使暖暖在不同场景中展现出相应情感，搭配时自信满满，面对挑战时坚毅果敢，哪怕是待机时，也会有眼神和微表情变化，极大增强了游戏沉浸感。

（图源：《闪耀暖暖》游戏实机录制）

“我们在意每一个眼神的含义，每一个微表情的潜台词。”——叠纸团队

叠纸公司在面部动捕技术方面采用了多种先进设备和方法，以确保捕捉到的角色表情和动作尽可能真实。尤其特别关注角色的眼神捕捉，因为眼神是传达角色情感的重要手段。通过面部动捕技术，捕捉到动捕演员的眼神变化，并将其应用到3D角色上，使角色能够更准确地反映出细腻的情感和意图，更有真人感，活人感。AI 技术上，他们利用深度学习技术对面部表情进行捕捉和分析，通过训练神经网络识别人脸和动画角色表情，提取角色表情信息，获得动画角色骨骼参数，并结合人脸几何信息对脸部关键点骨骼参数进行修正。

他们在面部动捕技术上的应用不仅提升了游戏中的逼真度，还通过细致的表情捕捉和眼神分析，增强了角色的情感表达能力，使得游戏角色更加生动和真实。叠纸团队在 3D 人物微表情研究上成果显著。《恋与深空》的开发过程中，叠纸团队注重面部表面材质和阴影效果，配合骨骼动画、法线纹理和变形体修型，让微表情动作更加逼真。

（图：叠纸公司的动捕设施）

二、AI 赋能的 3D 人物在人设和情感表达方面的挑战

1. 情感真实性难题

AI 数字人在模拟人类情感真实性方面面临着巨大挑战。人类的情感是内心深处复杂体验与对外界感知的综合反映，其产生机制涉及生理、心理和社会等多个层面的相互作用，是一个极为复杂且内在驱动的过程。例如，一个人在经历失去亲人的痛苦时，不仅仅是表面上的悲伤表情，还伴随着内心深处的痛苦、无助、回忆等多种复杂情绪的交织，这些情绪会通过微妙的微表情、语气变化、肢体语言等多种方式自然流露。

然而，AI 数字人要准确模拟这种真实情感，就必须深入理解人类情感的本质和产生根源。目前，尽管 AI 技术在数据处理和模式识别方面取得了一定进展，但在理解人类情感的微妙之处仍存在很大困难。AI 数字人主要依赖大量数据训练来学习情感表达，但数据往往只能反映表面现象，难以捕捉情感背后的深层次原因和复杂的心理变化。例如，在面对同样的情境时，不同人可能会因为个人经历、性格特点和文化背景的差异而产生截然不同的情感反应，而 AI 数字人很难像人类一样根据具体情境进行灵活而真实的情感表达。

2. 情感连贯性考验

人类的情感在不同情境和时间中具有连贯性，这是由个人的性格和长期形成的情感倾向所决定的。一个乐观开朗的人，在大多数情况下都会展现出积极向上的情感反应，无论是面对日常琐事还是重大挑战，他们的乐观态度会贯穿始终，在表情、语言和行为上都呈现出一致性。比如，在遇到困难时，他们可能会微笑着鼓励自己和他人，积极寻找解决问题的方法，这种积极的情感状态在不同场景中得以延续。

相比之下，AI 数字人要建立稳定的人设和情感逻辑并非易事。它们需要在各种不同的场景中做出符合预设人设的情感表达，否则就会给人一种不真实、不稳定的感觉。例如，一个被设定为温柔善良的 AI 数字人，如果在某些场景中突然表现出冷漠或暴躁的情绪，就会破坏其整体人设，降低用户对其的信任和代入感。目前，AI 数字人在情感连贯性方面的表现还不尽如人意，难以像人类一样在不同情境下保持一致且自然的情感反应。

3. 人设复杂性增加表达难度

成功的人设包含丰富的性格特点、背景故事和价值观，这些元素需要在不同情境中通过微表情和情感表达自然地体现出来。不同的微表情和肢体语言能够反映出一个人的性格特征和当下情绪。一个自信果断的人在做决策时，可能会微微点头、眼神坚定，同时表情严肃专注，这些微表情和肢体动作共同展现出其果断的性格特点。

对于 AI 数字人来说，要准确展现人设的复杂性，需要具备高度的智能和灵活性。它们必须能够根据不同情境和交互内容，精准地选择合适的微表情和情感表达方式。然而，目前的 AI 技术在理解和处理人设的复杂性方面还存在很大的局限性，很难像人类一样根据丰富的内在特质进行自然而恰当的情感表达，从而在一定程度上影响了其在复杂人设塑造方面的能力。

三、虚拟数字人技术架构与关键技术

1. 技术架构概述

虚拟数字人基础技术架构涵盖 “五横两纵”。“五横” 包括人物生成、人物表达、合成显示、识别感知、分析决策等五大技术模块，用于数字人制作交互。人物生成在 2D 和 3D 数字人中有不同体现，3D 数字人需额外使用三维建模技术，当前静态扫描建模为主流，动态光场三维重建技术虽具优势但尚未普及。人物表达包含语音生成和动画生成，动画生成中的驱动技术以智能合成和动作捕捉为主要生产方式，渲染技术进步使数字人皮肤纹理更真实。合成显示涉及终端显示技术，识别感知包括语音语义识别、人脸识别、动作识别等，分析决策依靠知识库、对话管理等。“两纵” 则指 2D、3D 数字人，二者在技术要求和呈现效果上存在差异，3D 数字人相对 2D 数字人在视觉效果和交互体验上更具优势，但制作成本和技术难度也更高。

2. 建模技术：从静态到动态的发展

早期静态扫描建模技术以结构光扫描重建为主，精度可达 0.1 毫米级，但扫描时间长，在友好度和适应性方面欠佳，主要用于工业生产、检测领域。如今，相机阵列扫描重建成为人物建模主流方式，毫米级精度且高速拍照扫描，满足数字人扫描重建需求，国际上如 IR、Ten24 等公司将其商业化用于好莱坞大型电影制作，国内凌云光也成功应用于电影、游戏、虚拟主播等项目。动态光场重建是最新深度扫描技术，可忽略材质直接采集三维世界光线并实时渲染动态表演者模型，包含人体动态三维重建和光场成像两部分，具有采集数据全面、光影效果真实等优势，虽目前技术尚未完全成熟，但已成为数字人建模重点发展方向，微软、谷歌等公司积极开展相关研究，国内清华大学、商汤科技等也在同步推进。

（根据用户脸部生成的车载智能助手图源：百度数字人）

3. 驱动技术：实现生动动作的关键

嘴型动作的智能合成已应用于 2D 和 3D 虚拟数字人，其底层逻辑是建立在输入文本到输出音频与视觉信息的关联映射上，通过对采集数据的模型训练实现。除嘴型动作外，其他动作如眨眼、微点头、挑眉等目前多采用随机策略或脚本策略循环播放预先录制好的视频 / 3D 动作，未来有望通过智能分析技术实现自动化。动作捕捉技术是目前最成熟且呈现效果最好的动作生产方式，根据实现方式不同可分为光学式、惯性式、电磁式及基于计算机视觉的动作捕捉。光学式动作捕捉通过对目标上特定光点监视和跟踪完成，基于 Marker 的光式动作捕捉常用，精度高但造价高昂且对环境要求高；惯性动作捕捉基于惯性测量单元 IMU，价格相对低廉但精度较低且会产生累计误差；基于计算机视觉的动作捕捉近年来兴起，通过采集及计算深度信息完成，精度较高且被检测对象无需穿戴装备，但受外界环境影响大，算法开发难度也较大。

（图源：阿里云数字人官网）

4. 渲染技术：突破恐怖谷效应

渲染技术分为实时渲染和离线渲染。实时渲染图形数据实时计算与输出，每秒至少渲染 30 帧，计算资源有限，渲染质量欠佳，适用于对实时性要求高但对画面质量要求相对较低的场景，如小型 APP 等，常用引擎有 Unreal 引擎和 Unity 引擎等。离线渲染图像数据非实时计算与输出，渲染时间长但计算资源丰富、计算量大，渲染质量高，适用于对画面质量要求极高的场景，如电影特效制作等。随着 PBR（Physically Based Rendering）渲染技术进步和重光照等新型渲染技术出现，数字人皮肤纹理更真实，突破了恐怖谷效应，使虚拟数字人在外观和动作上更接近人类，提升了用户的接受度和沉浸感。

（百度数字人叶悠悠图源：小侃星球app截图）

四、虚拟数字人未来发展趋势与智能座舱应用前景

1. 总体发展趋势

未来虚拟数字人制作技术将朝着更加简单、一体化、自动化的方向发展，采集制作流程有望实现简单化、一体化，通过迭代式提升真实感。例如，同步获取模型、身体、表情等所有数据，无需穿戴专业传感设备，使数字人在特定环境下与真人难以分辨，人们可更加自然地与其交流互动。全双工技术将使数字人具备一次唤醒、多轮对话、智能纠错等能力，实现多场景、多领域的融合，交互方式更加智能化，逐步具备 “看”“听”“说”“懂” 等全方位能力，紧跟时代潮流，深入融入影视、金融、文旅等各个领域，充分发挥应用价值，其市场价值也将不断得到释放。同时，随着 90 后、Z 时代消费者逐渐拥有自主消费能力，他们对二次元、动漫人物形象的消费水平稳步提升，为虚拟数字人产业带来新的发展机遇，诸多品牌也乐于与虚拟数字人合作，挖掘其商业价值。

2. 在智能座舱中的应用前景

在智能座舱领域，AI 数字人具有广阔的应用前景。从交互体验层面来看，智能座舱车载数字人可以借助高精度 AI 检测技术实时捕捉乘客动作和表情，实现与数字形象的实时互动，使乘客可通过肢体动作或语音指令与虚拟角色互动，享受沉浸式娱乐体验，增强驾驶过程中的情感陪伴感，减少疲劳。

在功能拓展方面，未来 AI 数字人将成为智能座舱的全方位智能助手，不仅能处理简单任务，如接电话、播放音乐，还能承担复杂任务，如根据实时路况、驾驶者偏好和车辆状态提供个性化导航建议，在车辆故障或保养时及时提醒并提供解决方案和服务信息。

从视觉呈现角度，全息投影技术将为 AI 数字人带来全新展现形式，如车载全息数字人有望成为 “人 — 车 — 家” 三屏融合的重要一环，基于云端及本地动态行为数据库，根据不同场景驱动虚拟人形象，营造充满科技感和未来感的氛围。

此外，AI 数字人还将在智能座舱的个性化定制方面发挥重要作用，用户可根据喜好定制其形象、声音、性格等特征，使其成为专属智能伴侣，同时在提升驾驶安全性方面也具有巨大潜力，可精准监测驾驶者状态，在疲劳或不适时发出警告并采取安全措施，有效降低交通事故发生率。

（图：领克的AI虚拟助理JOJO在聆听、发言时都有相应的动作适配，形象生动）

五、总结

微表情和情感表达在人类交流和心理学研究中占据重要地位，相关研究成果为 AI 数字人的发展提供了重要参考。叠纸游戏在人物表情刻画上的成功经验，展示了当前在微表情呈现方面的较高水平。然而目前，AI 数字人在微表情和情感表达上还是有很大的不足，仍面临诸多挑战。未来，可以借鉴游戏业的先进经验，更深入的结合心理学研究成果，进一步探索人类情感产生和表达的内在机制，以及先进的技术手段，如持续优化建模、驱动和渲染技术等，不断提升 AI 数字人的情感表达能力。

从行业发展来看，虚拟数字人产业已呈现出蓬勃发展的态势，市场规模不断扩大，技术不断创新，应用领域日益广泛。随着技术的不断进步和市场需求的持续增长，AI 数字人有望在更多领域发挥重要作用，为人们带来更加真实、自然、富有情感的交互体验，实现与人类更加深入的情感共鸣，最终跨越恐怖谷效应，成为人类生活和工作中不可或缺的一部分。叠纸团队在技术研发上的不断探索和创新，为游戏行业及虚拟数字人产业的发展提供了宝贵的借鉴和启示。

那么，你认为 AI 数字人在未来的发展道路上，还会在哪些领域产生深远影响？在提升情感表达能力方面，还有哪些技术与人文的深度融合？欢迎大家在评论区分享自己的见解，让我们共同见证 AI 数字人的成长与变革，一起探索这个充满无限可能的数字未来！

本文由 @INFP怡伶设计原创发布于人人都是产品经理。未经许可，禁止转载。

题图来自 Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App