2022年07月22日
评论数(0)浪潮导读:围绕场景需求,追求极致体验或极致效率,积极探索全新商业化方向的公司,将会成为下个时代的领军者。
作者 | 穆棉资本 陈十一
著名科幻作家刘慈欣曾提出:“人类面前有两条路。一条向外,通往星辰大海;一条向内,通往虚拟现实。” 而事实上,人类未必不能有第三条路,那便是物理世界与虚拟世界相融合,人类走向混合现实的时代。
我们所期待的世界应该是繁盛而自由的,既有物理世界的山河草木,也有虚拟世界的万千想象。虚拟世界与现实世界应该是相互促进的、彼此融合的,人的存在应该是流动的、自洽的、舒展的。
电影《失控玩家》剧照
目前,XR正在从各个领域进入我们的生活。例如,在教育领域,VR英语教育平台ImmerseMe可以让学生仿佛置身于另一个国家中,在具体场景中互动式地学习外语[1]。
在社交领域,Snapchat的AR滤镜已超过3.5 Trillion [2];Rec Room VR终端的MAU于2021年初已达百万[3]。
在消费及文娱领域,虚拟空间平台Decentraland日前举办了第一届元宇宙时装周 (MVFW) ,吸引了超过60个品牌参与[4];虚拟演唱会服务商Wave已经举办了超过50场现场活动,吸引了全球数百万用户观看[5]。
除C端应用以外,XR在B端如医疗、工业等领域也有了更加广泛的应用,比如通过VR进行工厂设备的远程维修等。虚拟与现实融合的时代正在加速来到我们面前。
Recroom虚拟社交场景
混合现实是物理世界与虚拟世界的交融,是继基于PC和智能手机交互之后的下一代新交互形式。过去的几十年里,人类经历了从PC到智能手机的时代,完成了从鼠标键盘再到手指触控的交互变迁。
在混合现实的时代,基于全新的“3D空间交互”和云基础设施,将诞生不同于以往的全新应用形态。
内容的分发逻辑,也不再是PC时代浏览器的搜索和智能手机时代的应用商店,而是更加智能化的“基于环境感知的AI技术”,比如中午你戴着MR眼镜走在路上,它会自动识别周围环境并给你推荐你可能喜欢的餐厅。
在混合现实时代,我们将会把“人”、“货”、“场”更进一步地数字化,本文将主要探讨围绕“人”这个基本要素,混合现实技术将带来的体验与场景革新,主要体现在以下几点:
当人的形象、躯体动作、甚至认知能力被深度数字化后,更自然的人机交互和更强的沉浸感将带来全新的体验。在混合现实世界提供服务的可能不再是一个个手机上的应用,而是在你面前活灵活现的“AI虚拟人”。
混合现实世界既有物理世界的人经过更高维度的数字化形成的数字分身(Avatar),也有虚拟世界原生的虚拟人,这里面涉及建模、渲染、动捕、动驱等一系列技术。
随着AI技术的演进,以及相关工具使用门槛和成本的逐步下降,我们认为数字分身或虚拟人不会只存在于游戏和影视中,也会释放每个企业和每个人的创造力,拓展到更多的应用场景。
混合现实背后是更广泛、更高维的数字化,我们关注那些能够依托场景构建数字资产,并创造优质闭环体验的创业公司。我们认为如果这些公司能将数据和AI进一步结合,在提升用户体验的同时持续降低提供服务的成本,那么这类公司将会创造更大的商业价值。
在上一代互联网产品中,人初步实现了社会身份的数字化,例如腾讯的QQ秀、游戏中的avatar等,人们开始在线构建社交网络,以数字身份进行信息的交互。
而在混合现实的时代,虚拟身份的完整度以及人的数字化程度将实现质的飞跃。人们不仅拥有了更完整的数字身份体系和基于虚拟场景的社交关系,还能获得更高维度的反馈和更真实的数字形象,甚至能够实现动作的数字化和在线化。
而这样更广泛、更高维度的数字化,能够创造更强的沉浸感和更自然的人机交互,使得消费者的体验被全面革新。
更强的沉浸感和真实感
沉浸感并不是一个新概念。
在数字世界里,各种3A游戏大作已经通过精美的画面、精巧的关卡和环节设计使得用户能长时间“沉迷”其中;在物理世界里,迪士尼乐园等主题公园也通过复刻童话中的场景,卡通形象以及故事线等方式让用户进入童话世界。
而混合现实是物理世界和数字世界的混合,开启了人、计算机和环境之间自然且直观的 3D 交互。
而相关技术的发展如计算机视觉、图形处理、显示技术、输入系统和云计算等,使得沉浸感有了突破性进展,主要体现在数字化形象的真实性和可交互性上。
通过全息技术或3D建模生成的数字对象,如全息影像或者虚拟数字人,放到物理世界中会宛若真实存在。
在江苏卫视2022跨年演唱会上,大陆歌手周深与通过全息技术呈现的台湾传奇歌手邓丽君(已故)合唱了经典歌曲《小城故事》,为粉丝带来了一场穿越时空的演唱,这让很多曾经错过邓丽君演唱会现场的粉丝们弥补了遗憾。
当我们打开B站现场视频时,依然能看到“圆梦之夜”、“爷青回”、“感谢高科技”、“下次做个哥哥(张国荣)”等弹幕持续刷屏。
虚拟技术呈现的“邓丽君”与周深演出画面 图片来源:B站视频
通过动捕和扫描可以将一个真实的人数字化,从而带来全新的可能性。比如,人可以不受时空限制地看到你熟知的人并与之交互,无论是明星、家人、朋友、同事,亦或是你爱的人,创造一种数字媒体中前所未有的亲密感。
例如,在Wave的虚拟演唱会中,Justin Bieber的数字分身可以在不同的场景中随时切换,上一秒还在金色草原,下一秒则带领观众来到了荒漠公路。来自全球不同地区的用户可以跨越空间,通过交互特效、虚拟道具等与他即时互动,获得线下演唱会中无法获得的全新体验[5]。
随着动作捕捉、面部识别、表情识别等相关技术的不断发展,未来人或许能够1:1操控自己的数字孪生,去完成许多物理世界中不可能完成的事情。
Justin Bieber 虚拟演唱会
更自然的人机交互
人机交互的核心是提升效率,从纸带打卡、到键盘、鼠标、触摸屏、语音输入,都符合提升效率、降低人类能耗这个规律。混合现实的体验中多数使用体感交互,而体感交互多数时候与“降低能耗”相违背。
但是因为其更接近于人的本能行为,在一些追求高拟真度的应用场景下,有非常独特的优势,比如运动游戏的场景。和其他游戏相比,运动游戏非常强调拟真,因为只有最大程度贴近现实,才能让玩家更有代入感和参与感。
交互技术的发展,给运动游戏带来了丰富的输入输出方式,推动着运动游戏体验升级。平台的交互逻辑与交互的自由度都影响着用户的操作方式和运动体验,此前无论是街机、PC、主机,还是手游,玩家都是通过手指操作去体验游戏,交互维度单一,无法真正还原物理运动。
直到体感交互技术的支持,运动游戏逐渐从玩法机制的拟真走向感官体验的拟真。
由于XR技术能够贯穿线上和线下,在线上体验之外,线下场景还能借助一些多元化的输入设备,比如手持道具等互动体验设备去增强游戏体验,带来拟真性的突破。
新一代的产品,如Beat Saber、Supernatural等,对运动进行了更充分的还原和拟真,用户不仅仅是在游戏,更是在真实的运动,并能在运动过程中及时地获得游戏化反馈,所以用户不仅能达到强身健体的功能性目标,还能充分享受运动过程中的乐趣[6]。
Beat Saber效果示意图
虽然VR运动游戏对真实的运动进行了更多的还原和拟真,但是当前的VR运动游戏受限于硬件性能、开发技术以及设备便携性等因素,仍然以轻度的单人体验为主,对抗性弱。因此国内的一些初创公司也在积极探索其他的技术路径,希望为用户提供在当前的技术成熟度下更为自然的交互体验。
以运动健身领域的初创公司ATP.Club为例,其自研的CV动捕算法能够使得从图像输入到动捕结果输出的延迟降低到8ms以内,让用户在运动游戏中体验极强的操纵感和沉浸感。
首先,avatar的动作和用户真实动作之间几乎感受不到延迟,并且无穿戴设备使得用户能够自如地进行较为激烈的运动。
相较于VR设备集中于上半身的捕捉,ATP.Club围绕运动场景对动捕方案进行了针对性优化,能够在手机和iPad等移动端上实现全身级低延迟、高精度动捕,使得人能实现更高维度的动作数字化。
动作的数字化使得运动变成一场大型网游成为了可能,未来一位在美国的用户或许能和一位在中国的用户联网打一场酣畅淋漓的网球比赛,如同一场在线下真实的网球对抗。
同时,随着大量多维度、全量的动作数据积累,ATP.Club未来还会通过自研的AI算法,根据每一位用户的运动习惯、身体特点等为其自动生成合适的运动内容,用户未来甚至能和AI虚拟人进行对练,真正实现千人千面的定制化运动。
除了技术维度以外,拟真度还可以通过一些精妙的运动游戏机制设计来提高。ATP.Club设定了长期不运动的用户avatar会长胖,而经常运动的用户avatar则身形更为健美苗条等有趣的机制。
用户还可以为自己的avatar购买运动装备NFT,让avatar拥有更出彩的造型,从而获得更高的关注度,进一步丰富用户的社交体验。
ATP Club:Metaverse运动应用开发平台
体验的变革离不开底层技术的发展。
上世纪中期CG技术(Computer Graphics 计算机图形学)的诞生实现了混合现实世界中数字人的应用,同时期动捕技术的发展极大降低了3D动画制作中分镜和动画环节的门槛,提高了制作效率。
2010年后,惯性动捕的应用将虚拟分身推向了除影视、动画之外更广阔的场景。
2012年后,AI与图形图像的结合迎来了爆发,GAN模型(Generative Adversarial Networks 生成式对抗网络)、NLP模型(Natural Language Processing 自然语言处理)等AI技术的发展,为混合现实世界中千人千面的虚拟人提供了坚实的后盾。
CG技术为混合现实中真实感人物的制作奠定了最初基础
人的数字化进程,最早可以追溯到上个世纪传统CG技术在角色建模、人物动画与渲染技术上的突破。
多边形建模、曲面建模、参数化建模等模型制作的发展,使得模型从二维走向三维,商业化从平面印刷、网页设计行业走到三维动画、影音特效行业[7]。
光照处理、纹理贴图等真实感渲染技术的提出,使得模型逐渐变得更加真实,从1991年的《终结者2》到2010年的《阿凡达》,人们可以直观感受到CG技术在真实感上的飞跃。
电影《阿凡达》剧照
20世纪90年代末,CG技术无处不在,Pixar的离线渲染在影视行业取得成功,3D图形和实时渲染技术也在游戏中流行起来;1996年,Krishnamurty和Levoy发明的法线贴图[8],带来了人物深度、真实性和光滑度上更好的体验。
然而,传统的3D动画制作流程复杂,门槛较高,应用场景较有限,一直以在影视行业和游戏领域应用为主。
动捕技术实现人体动作和表情数字化,推进虚拟人进一步发展
在显示、计算硬件和渲染技术发展的同时,数据采集环节也在同步发展。动捕技术的出现,替代了传统3D动画制作中,最难最复杂的角色动画环节。通过光学、惯性等动捕技术,将运动物体的动作数据记录下来形成三维动作数据,最后将这些动作数据重新赋予动画模型,从而实现真人动作数字化。
目前适用范围最广的两类动捕技术分别是光学式运动捕捉和惯性式运动捕捉。光学动捕需要演员穿着紧身动捕服,并且在身上粘贴光学标记点,在配置好光学动捕设备的场地进行表演和动作录制[9]。
其与惯性捕捉设备相比,数据精度更高,但成本和技术难度也更高,因此主要使用场景仍是大型动画、影视制作领域。
2001年上映的《指环王》中的Gollum是电影史上最经典的动作捕捉角色之一,这一时期的光学动捕精度可达0.1mm,数字人的呈现从背景角色的肢体动作发展到主演的面部表情。
电影《指环王》Gollum 利用光学动捕技术捕捉动作
随着MEMS(Micro-Electro-Mechanical System 微机电系统)光学技术轻量化,在2010年之后的十年间纯惯性动捕开始在影视制作、体育分析、医疗康复等各个领域与光学动捕展开激烈的竞争。
惯性设备的安装和校准更简单,后期数据处理量更少,降低了真人动作数字化的门槛,虽精度相对光学动捕略低一些,但成本的下降也使得动捕设备从影视制作拓展到更多场景。
就拿直播场景来说,惯性轻便的动捕设备、实时渲染的平台技术和低成本,为B站、Youtube、Tiktok等平台的创作者们提供了新的创作路径,虚拟主播如Asoul、星瞳等成为了新一代的网红达人[10]。
虚拟主播实时显示[11]
而在混合现实场景中,动捕技术同样可应用于人的数字化呈现。例如Anomalyst Studio使用Xsens的惯性动捕技术在2021年全球电子竞技大赛(Global Esports Games)开幕式上,为歌手ShiGGa Shay制作了混合现实现场表演[12]。
Xsens惯性动捕技术打造混合现实演出
2021年5月,在谷歌推出的Project Starline--3D视频聊天室中,视频的双方不需要佩戴任何眼镜或者头盔,真实的就像面对面聊天一样,人物细节饱满[13]。
谷歌Project Starline 3D视频聊天室
AI技术将进一步降本增效,极大拓展虚拟人应用场景
相较于传统的CG技术和动捕技术,AI进一步降低了3D动画制作门槛。引用慧夜科技创始人所举的例子,假如制作1小时舞蹈表演,CG软件需要10名左右的动画师一个月的时间,动作捕捉需要至少一周时间找演员排练、捕捉和后期修补,而AI算法则可以实现所见即所得。
例如今年网易AILab推出的一款产品级视觉动捕工具iCap,只需用手机从两个视角拍摄同一组人物动作,便可快速高质量地捕捉人物动作,得到骨骼动画数据。相较于传统的穿戴式动捕流程,这种基于视觉AI算法的轻量级智能捕捉技术产出效率更高,几乎能够实现即拍即得,同时人力及设备成本更低[8]。
网易AI Lab视觉动捕工具iCap视频展示
推出类似应用的还有2014年成立的DeepMotion公司,其通过AI驱动的动作捕捉和实时3D身体跟踪,让用户可以使用任何浏览器从 2D 视频生成 3D 动画,在移动设备上实时执行 3D 身体跟踪,并通过全身 3D 化身彻底改变VR 体验。
该公司同样主打无需套装/硬件的轻量级设置,以及实时高效的产出效率(几分钟内即可生成动画)[14]。
AI技术的发展和渗透使得建模、渲染、动驱生产环节趋于融合,不仅带来内容生产效率的提升,也使得虚拟人物的应用场景更加广泛。
相比真人驱动的数字分身(Avatar)更多应用于消费、娱乐、社交等场景,AI驱动的虚拟“机器人”可以有更广阔的应用空间。
例如冬奥会帮助奥运冠军训练的“小冰”,以及通过语音语义识别,将声音根据规则转化成动作的“手语虚拟人”,均是基于AI技术得以像真人一样在现实世界中工作[15]。
在未来,混合现实世界中的虚拟人不可能全都由真人驱动,人类与虚拟人的交互也不可能全部由其背后的真人完成,因此需要虚拟人能够自发的表达和交互,成立于2019年的慧夜科技正在这一领域进行积极探索。
慧夜科技专注于虚拟生命AI驱动技术,打造虚拟人的小脑。其自研的生成式深度神经网络框架,能够提供给用户低门槛、高效率的3D内容生成工具,致力于成为虚拟世界中数字人三维内容的创建和使用平台[16]。
慧夜科技 虚拟DJ视频内容展示
混合现实技术在消费、工业、医疗、教育等传统行业的应用,不仅带来了体验维度的升级,更创造了巨大的商业价值。
例如在消费领域,尽管通过AR试衣购物相比于传统线下购物,消费者仍然缺乏对实物的感知,然而AR+消费却极大地增强了消费者对于商品质量的信任度,提升了在决策环节的转化率。
根据2021年Snapchat与Deloitte联合发布的《2021年消费AR报告》,具有AR功能的商品进行交互可将商品的转化率提高94%[17]。
而在更为新兴的领域,围绕混合现实进行原生的商业化探索也带来了一些全新的可能。比如在虚拟音乐会行业,除票务收入、虚拟商品、增值服务、体验道具等模式以外,一些初创公司正在围绕数字资产,虚拟现实融合的品牌营销等多个维度进行商业化探索。
彼真科技是在这个方向上探索的代表公司之一。彼真通过打造全真体验协作平台,一方面提升了全真体验的创作效率,另一方面聚合了音乐人、策展人等创作者,以及灯光师、音响师等专业服务人员,形成了多层次的创作者生态。
同时围绕数据资产确权、存储、数字藏品等方向展开了商业化的积极探索。比如用户可以在虚拟演唱会中邀请身边的人线上喝酒,并会在线下真的收到一瓶实物酒;人们可以在虚拟体验中通过互动获取积分,再用积分换取数字藏品或收到相应的实体商品。
这些都是基于混合现实的独特交互体验所诞生的全新商业机会。
从农业革命到工业革命,人类完成了与物理世界的关系构建,并改造物理世界,从而创造了繁盛的物质文明。而信息科技革命,则让人类从物理世界走向数字世界,构建了丰富的数字文明。
下一个时代,人类或许将会走向物理世界与数字世界融合的混合现实世界,并基于新的技术、生产资料与生产方式,构建新的文明。
在这个变革的过程中,我们始终相信围绕场景需求,不断发展技术,追求极致体验或极致效率,同时积极探索全新商业化方向的公司将会成为下一个时代的领军者。
附录:
[1] VR陀螺 获10亿日元融资,VR英语学习平台真的靠谱吗?_VR陀螺 (vrtuoluo.cn)
[2] Snap AR官网
[3] Twitter推文
[4] 东西互娱 60+时尚品牌参与,元宇宙时装周
[5] GameLook 音乐元宇宙Wave获4000万美元融资,巨星比伯也来开虚拟演唱会 (qq.com)
[6] 腾讯网 专访《Supernatural》创始人:健身会是VR的杀手级用例吗?_腾讯新闻 (qq.com)
[7] CG 影视动画介绍
[8] Normal mapping 维基百科
[9]机器之心 CVPR 2022 | 高质量捕捉人物动作,网易互娱AI Lab提出高效视频动捕技术
[10] 影视工业网 推开“视觉虚拟世界”之门—关于“动作捕捉”你要了解的那些事
[11] 快看VR圈 直播Xsens 动捕系统制作逼真Unity角色动画
[12] Live Movement in a Virtual World with Xsens x Anomalyst Studio
[13] 机器之心 论文来了!谷歌公开裸眼3D全息视频聊天技术:8k屏幕、4块GPU和一堆摄像头
[14] 三次方AIRX 仅从视频文件生成3D虚拟化身动画,无需动作捕捉设备
[15] 创业邦 元宇宙投资操盘手冯铮:虚拟人的价值,绝不是“不塌房的偶像”
[16] 慧夜科技官网
[17] Deloitte Digital and Snap Inc.: The Snap Consumer AR Netherlands Report 2021