Meta启示:AI是通往元宇宙的关键变量
编辑导读:从去年十月Facebook改名为Meta后,关于元宇宙话题的讨论度居高不下。最近,Meta公布了关于元宇宙的多项新技术。本文作者对此进行了分析,一起来看看吧。
近日,元宇宙界中又有新的活水涌入。在Meta举办的实验室讨论会上,Meta CEO小扎公布了自家元宇宙的多项新技术。
无论是资金还是技术,Meta都是构建元宇宙世界中跑在最前面的一位,从去年十月不惜将Facebook改为Meta,到旗帜鲜明的花费百亿投入其中,一系列的砸钱收购,小扎行动派的作风头铁一股脑扎入元宇宙的深海,近日也取得了一系列的成果公开分享。
此次元宇宙中Meta实验室的技术突破,会给行业带来哪些启示?作为行业的技术前驱者,小扎对自家的新技术评价是“勾勒出元宇宙的关键步骤,解锁许多进步的是AI”。AI与元宇宙碰撞,给元宇宙世界带来的影响又是什么呢?你是否心中也有许多问号?话不多说,进入正题,我们先从这些新技术的模样谈起。
一、AI引人遐想
在新技术公布前,有关Meta最火的消息是在二月初的财报。整个2021年度,Meta现实实验室亏损了101.9亿美元,2020年度的亏损为66.2亿美元。
真金白银的投入砸下去,雷声大,雨点小。许多投资人与从业者从元宇宙的狂热中清醒了一些,不过近日Meta在元宇宙中技术的突破,似乎又让很多人对Meta有了点信心,也让元宇宙的数字世界往前迈了一步。
Meta公布的新技术包括语音生成元宇宙场景的Builder Bot、超级AI助手CAIRaoke等。
1.语音生成场景的Builder Bot。在录制的视频中,我们可以看到小扎和一位同伴在虚拟的环境中,通过一系列的语音指令让本来单调的虚拟背景中,增加云朵、树木、小岛、桌椅等虚拟物品,随着语音指令的结束,一个相较丰富的虚拟场景建立了起来。不过现在的Builder Bot只是简单的demo展示,更加复杂的3D环境的生成需要时间与更深的研究。
2.超级AI助手CAIRaoke。底层是一种自我监督端到端的神经网络模型,这个模型可以理解与学习用户的声音与肢体语言,让我们可以在虚拟数字世界中和语音助手的对话更加流畅自然。在视频的演示中,AI助手可以与人交流的同时,关注到煮饭过程中的盐量,并且及时的提醒用户补充盐的份量。目前,这一技术已经在其视频通话potal设备中应用,未来也会集成在AR/VR产品中,增加与数字助手的交互。
3.通用机器翻译工具。这是Meta正在开发的一项技术-通用的语音翻译器,旨在提供所有语言的即时语音到语音的翻译,而语言的种类涵盖所有书面语言。这个通用的AI机器翻译工具可以打通我们与信息、人的屏障,语言从此不再是限制我们获取信息的障碍。
除此之外,Meta还公布了其他的一些AI工具,这些公布的最新AI技术和此前Meta公布的超级计算机等,未来的成熟转化,给元宇宙带来的影响令人遐想。
元宇宙作为下一个技术形态入口,与AI技术的耦合,我们可以明显感受到对元宇宙世界生态内容的丰富。数字世界中的智能陪伴、智能交互、场景内容的生成与构建等,无不在诉说着AI各类智能工具对元宇宙世界的基建设施的智能改造,不仅仅是将大量的基础设施与引导的工作包揽,为从业人员的减负,也给人类与机器的交流,用户在生态内的体验,提供不同于人类现实社会的价值。
我们看到,AI赋予的能力使得元宇宙世界的模态运转加速,换句话说,元宇宙的世界构建也会朝着电影头号玩家中的“绿洲”深入。
二、智能的“人”与“环境”
对于元宇宙世界来说,最本质的核心是交互,而让交互有身临其境的感受,需要元宇宙的沉浸式体验。作为虚拟的平行世界,元宇宙需要包含现实世界拥有的所有元素。如果想要讨论Meta此次的新技术为元宇宙带来了什么,就需要回到元宇宙的基本要素中寻找答案。
行业对元宇宙的基本要素的共识基本就是以Roblox公司给出了元宇宙的八大要素为主,包含:身份、社交、沉浸感、低延迟、多元化、随时、经济系统、文明。
笔者认为Meta的技术突破为元宇宙带来的变化,可以归结为交互与沉浸体验的丰富。
首先是沉浸式体验,语音生成场景的Builder Bot,归根结底是让元宇宙朝着沉浸感更加智能化的方向发展。用语音生产场景,这种探索式的方式,显示了AI可以在元宇宙创造复杂3D环境与新世界的潜力。
在建设多样的沉浸式社交元宇宙路上,如果穷尽参与者的生产能力来进行场景内容构建,内容的生产仍旧是产能有限。如果转化为AI技术的自动化构建,一些重复的素材与脚本设计等,简单耗时的工作可以让AI工具完成,元宇宙世界最核心的产品内容,就可以花更多的精力来打磨。
在交互感方面,包含着社交、低延时、多元化的要素需求。超级AI助手CAIRaoke与通用机器翻译工具的未来形态,可以让元宇宙中人与人、人与数字人的交互更加流畅。元宇宙中的“人”是基础的组成单元,既包含着进入元宇宙的探索者们,也包含着元宇宙中的虚拟数字人。超级AI助手CAIRaoke可以理解与学习用户的声音,从而让我们与生态中的各类数字人进行自然的交互。与此同时,通用机器翻译工具可以即时翻译不同民族的语言,让进入元宇宙的各类背景用户无障碍沟通。
超级AI助手CAIRaoke与通用机器翻译工具的未来,可以扫平元宇宙中交互的语言障碍,让数字世界的交互更加简单归一。
Builder Bot、 CAIRaoke、通用机器翻译工具等AI技术的研发方向与未来形态,让元宇宙中基本组成单元人与环境智能升级,这也让元宇宙越来越接近理想的状态,吸引更多的人进入元宇宙社交。当然,虚拟AI与现实AI技术的学习与进阶会互相反哺,对于现实世界来说,也推进了创造性人工智能技术的前进。
元宇宙的生态籍由此会变得更加立体,我们知道内容是吸引人的关键,但人在数字世界的感受才是粘合与长存的基础,而这个感受需要数字技术将我们的感官在虚拟世界中放大,真实的质化让沉浸感升级。
三、捕捉现实世界:数字“通感”的步步进阶
谈论我们在数字世界的感官,引入通感的概念,可能会更加好理解。通感的本意指的是把不同感官如视觉、嗅觉、触觉、听觉等感觉互相沟通,互相转化,借以让人的感受更加立体丰富。那么,在元宇宙的世界,数字“通感”就是借由AI与机器让肉身更加生动的体验与探索虚拟世界,表达与传递情感的温度。
数字的通感中语言是交互的底色,听觉是语言交互的基础,数字视觉(VR)与触觉(传感设备)则让我们的肉身在虚拟世界有了真实的质感和触动。听觉设备与技术的进阶,再与数字视觉(VR)与传感器设备的耦合,驱动着元宇宙世界的真实感步步深入。
听觉的AI技术主要以智能语音识别和智能语音合成为主,在前文的叙述中,我们了解到,在虚拟世界中,与语音技术集成的AI助手结合,无论是指令,还是常态的语音交互,AI语音技术的引入都会让用户体验到机器与人的陪伴和归属感。虚拟世界的温度,也因为语音技术的拟人更加自然,同时机器在交流沟通过程中的不断学习,也会让虚拟世界的数字人更加了解用户的特性, AI助手成长为虚拟的密友只是时间问题。
元宇宙数字视觉方面的“通感”依赖AR/VR技术。其与AI的结合,也是未来AR/VR发展的重要一环。拿Meta旗下的Oculus举例来说,Oculus是许多人选择头显的首选,在Horizon Home的虚拟空间,可以用Oculus进行社交聚会,其中的手势识别、桌面、键盘、沙发等物品的追踪都离不开AI技术的加持。视觉的数字通感,让AR与VR从虚拟世界的入口,再到AI交互体验的智能升阶,由实入虚,由虚到智。
数字触觉的通感则来自于一些搭载AI技术的传感器设备。例如Meta发布过的可穿戴手套和智能手腕设备,这些设备可以对手部手势与腕部的动态追踪,感知环境。通过对手腕的肌电图信号分析,系统可以理解微小的手指运动,进而转换为数字命令发送到设备上,实现数字交互与控制。触觉手套则通过气动装置和触觉渲染系统来模拟真实的触感。触觉渲染系统需要构建相应的软件和算法来建模,根据手的位置、对虚拟环境物品的重量、纹理、硬度等理解分析,然后向手套的气动装置发送正确的指令,来呈现真实物理世界的触感。
数字的视觉、听觉、触觉在AI技术的加持下,破开了虚拟世界的次元壁,我们在元宇宙中的分身虚拟人,可以在数字空间中感受到虚拟世界物质的“实感”,与信息碰撞,在虚拟世界中成长。
元宇宙基础设施的完善,是一个任重道远的过程,依赖通用智能技术的持续进步,在建设元宇宙的路上,AI的应用是让元宇宙更富沉浸感、更具多元化的关键。这也是吸引无数用户进入与常驻元宇宙平台的有效方式。
在传统的互联网中,我们的体验归根结底是作为旁观者的身份进行信息的传递与交互。元宇宙中,使用AI不仅可以为元宇宙创造广泛且丰富的环境与内容,AI加持下的数字通感让用户可以在虚拟空间中,感官被开启并放大,并以拥有通感的虚拟人身份作为参与者身处其中,我们可以丢掉肉身的各种限制去互动、探索与分享。
数字通感与元宇宙的契合,AI是连通的桥梁,不可或缺,为亿万用户构筑出人机共生共融的新未来。
#合作媒体#
脑极体,微信公众号:脑极体。写让你脑洞大开且能看懂的人工智能、流媒体、海外科技
本文原创发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议
技术继续发展才有可能进入元宇宙至少现在还是缺了点
原来Meta是Facebook,都没有关注到它改名了