5G网络下的 全息通信
最新研究发现,曾经仅存在于科幻小说中的全息通信,如今已成为消费者和企业用户最想要使用的5G应用之一。
爱立信首席技术官艾瑞科(Erik Ekudden)畅谈XR技术在5G网络中的应用
扩展现实 (XR) 技术有望改善人类生活的方方面面,从工作场所和教育到医疗保健、社交互动和娱乐。要随时随地交付三维捕获的流和渲染 XR应用程序,需要在整个链应用具有边缘计算功能的架构。
这篇《爱立信技术评论》(Ericsson TechnologyReview)的文章探讨了使用5G网络传输全息通信的可行性,这是最令人期待的XR用例之一。作者们设计了一种端到端架构来实现高质量全息通信,可通过将高性能计算转到5G网络降低移动设备的能耗和端到端延迟。
最新研究发现,曾经仅存在于科幻小说中的全息通信,如今已成为消费者和企业用户最想要使用的5G应用之一。
全息通信是指对远程对象的3D表现的实时捕获、编码、传输和渲染。锚定在空间中的3D表现在扩展现实(XR)头戴设备中显示为立体图像或3D视频,展现类似于全息影像的视觉效果。
许多用户表示,体验了多年在智能手机和平板电脑上进行视频通话,他们现在热切期盼通过沉浸式通信服务(如使用5G网络的3D全息增强现实通话)与其他人进行数字会面[1]。与平面的视频相比,全息通信可以传达那些微妙的非语言信息,并提供一种在场感和即时感,从而提高人类交互的质量。超过50%的智能手机用户[2]期望这项技术将在几年内面世。
渴望更真实的数字通信形式的不只有个人消费者,还有企业用户。最近的一项研究表明,远程工作的主要障碍在于社交互动的需求[3]。由于在办公室外工作的时间预计将在未来十年中继续增加,许多办公室工作人员将需要更沉浸式的数字互动形式。
从AR眼镜和带有空间音频的全息通话开始,世界各地的办公室工作人员希望触觉技术能给他们带来更多好处,因为触觉技术实现了数字对象触觉感知的功能[3]。超过一半的人表示,他们希望在远程工作时,办公室里能有一个多类型感知的数字工作站。同样,最近的一项在线调查(涵盖了14个主要城市的7115名年龄在
15-69岁之间的自诩的技术早期采用者)发现,有80%的人预计,到2030年,将出现远程呈现设备,可用于与同事远程社交。
未来几年实现全息通信用例的可能性很大。对全息通信的预期已经出现在许多消费者和企业应用领域:从以全息影像的形式参加家庭活动,在家与医生见面,到远程出现在办公室,专家为工厂提供远程帮助,以及沉浸式营销。只要生态系统准备好以良好的价格点位和体验质量(QoE)提供这些新体验,我们的研究表明,个人消费者和企业都会热衷于使用它们。
使全息通信成为日常现实的能力取决于三个关键因素。首先,需要有一种驱动行为改变的渴望(人的因素)。其次,需要推出价格适当的AR设备。最后,移动网络必须具备支持“全息通信管道”的能力。
人的因素
用户是任何人类通信技术的主要受益者,全息通信也不例外。因此,必须了解人们是如何看待它的,大家认为的它的好处在哪里,以及他们对如何改善用户体验的看法。
全息通信的两个主要用户群体(企业和消费者)对全息通信的需求有不同的优先级。如果全息通信能比现有工具更好地满足生产力目标,企业才会使用全息通信。这些可以定义为特定使用环境下的有效性、效率和满意度[4]。
相较而言,消费者倾向于选择最能满足其享乐目标的通信方式,特征为享乐、情感和体验 [5]。众所周知,情绪是决策的重要指引[6]。因此,在整个开发过程中理解人们的感受是至关重要的,这可以通过用户研究来实现。
在一项关于这个主题的内部研究中,我们发现人们对全息通信抱有的一种关键情绪是兴奋。他们对在同一个房间里看到自己认识的人的全息版本感到兴奋;对这项技术的未来感到兴奋。由于全息互动的新颖性,这种反应是意料之中的,但随着新颖性(或“光环”)效应的减弱,人们倾向于优先考虑可用性、有用性和熟悉性等因素[7]。
虽然XR通信[8]已经存在一些QoE指标,但也可以使用其他一些工具。设计思维[9]可以在早期就使用,以确保建立最佳解决方案,而定性方法(如访谈)可以在早期原型阶段使用,以获取有关人们的感受的更深层的见解。其他以人为中心的主题,如道德、许可和可及性,也应得到考虑并定期监测。在设计过程的早期,让人机交互、人机工程学、心理学和用户体验方面的专家参与进来,可以确保最终产品符合预期用户的期望。
在全息通信的发展过程中,人的因素应当格外引起重视。我们可以坚持这样一种方法:把端到端(E2E)理解为“人到人”,而不是设备到设备。
增强现实眼镜和其它设备
早期的AR眼镜是通过电缆连接的,随后利用了Wi-Fi技术,由于移动性不足,大多数应用只能在家中和办公室使用。然而,在过去五年中,AR眼镜市场发生重大变化,特点是:在重量、视野、分辨率、电池寿命和移动性等重要参数方面,都有了长足的发展。
第一代轻型AR眼镜是两年前推出的。它通过USB-C连接到支持4G和5G的智能手机上。下一代AR眼镜预计将具备内置的蜂窝连接,类似于今天的智能手表。图1展示了一些企业和消费者用例,它们将受益于下一代AR眼镜的推出。
有两种不同的AR设备类型:支持SLAM(同步定位和映射)的设备和不支持SLAM的设备。SLAM使用一个或多个前置摄像头创建和更新周围环境的映射,让设备定位自身,并在环境中的固定位置锚定虚拟内容(包括全息影像)。真正的全息影像要能从不同角度看到,而这可以通过SLAM实现。
移动和固定全息显示器以及AR隐形眼镜的不断发展也将促进全息通信的普及。支持AR的平板电脑和手机降低了全息通信使用门槛,但仅在不需要手动操作的情况下。
全息通信管道
我们提出的全息通信支持架构如图2所示。其中捕捉传感器提供了人脸和身体的实时表示。在编码之前,先进行格式转换和过滤,以降低网络上的比特率要求。压缩全息影像通过5G等低时延可靠传输网络传输到XR设备。到了XR设备,要先对压缩全息影像进行解码和处理,再渲染到消费者用户环境中。渲染引擎考虑设备和渲染场景的位置和语义信息。虚拟的人的表示将显示在XR设备上。网络可以充当全息数据编码、解码和渲染的计算平台,从而减轻设备处理的数据量。
捕获技术
全息捕获是创建物体、人或环境的可测量3D表示的过程。此过程分为四个步骤:
- 采集
- 深度估算
- 数据融合
- 后期处理
采集步骤利用视觉传感器捕获各种有用信息(volume)。3D捕获使用了几种不同的视觉传感器技术。当前最常见的机制是使用飞行时间(ToF)传感器(如激光雷达),它通过计算光脉冲到达目的地并返回的时间来测量距离。
在深度估算步骤中,我们使用传感器流计算深度。ToF传感器可以直接提供深度信息,而立体摄像头和多摄像头系统通过从不同角度捕捉人的信息来估算深度。
在数据融合步骤中,通过匹配关键点并计算不同视角的最佳几何变换,将不同视角的深度信息或深度映射融合为单个3D点数据流。
后期处理步骤通过清除冗余点、噪声和异常值来减少3D点数据流的数据大小。生成的3D表示能以各种视觉媒体格式(如点云,即 point cloud,或网格,即mesh)提供。
点云是代表全部捕获信息(volume)的点的集合。每个点都包含位置信息,以及特定帧的“红色、绿色和蓝色”颜色模型选项和亮度值。网格将这些点连成三角形,忽略多余点,并补全任何空处。通过减少顶点数量,可以进一步整理网格并缩小尺寸。根据分辨率的不同,网格可能比点云小得多,可以提高存储、传输和渲染速度。
渲染和显示
渲染是通过计算从给定视点生成场景或模型图像的过程。场景(scene)是描述全部信息及其内容的容器对象。源(source)是位于要渲染的场景中的对象。摄像头(camera)是渲染视点的实例,由位置、焦点、方向和分辨率组成。
引擎根据渲染管道渲染内容。渲染管道负责消隐、渲染和后期处理。管道也有几种类型,具有不同的功能和性能特征,适用于不同的应用程序和平台。经过优化的通用渲染管道可跨多种平台处理图形,而高保真图形管道则适用于高端平台。
还有其他一些技术和方法可以改进渲染过程,实现更快且更高QoE的渲染、平滑方形边或提高场景中对象的质量。此外,AI算法可以重新创建场景的对象,或创建逼真的数字表示[10],例如虚拟形象。逼真的数字表示包含一个模型:视觉表示或网格模型和配置。配置是模型的骨骼或访问点。这些点在渲染过程中使用预加载的动画形成最终动画。
与虚拟形象相比,深度摄影机捕获的实时数据需要更多的算力才能渲染。全息影像的每一帧,都需要对网格的所有部分进行渲染,而虚拟形象只需要渲染差异部分,比如更新的面部表情(例如眨眼)。
分割渲染是一种将渲染功能转移到边缘云的方法。其关键在于跟踪场景中XR设备的六个自由度位置和方向,并实时向边缘提供稳定反馈。3D场景的渲染在云中进行。根据用户的位置,云从用户的角度将2D视频流回到场景中。对于这种方法,最终用户设备不需要具有高端性能。然而,在这种情况下,良好的QoE需要边缘和设备之间的低时延通信。
当数据准备好时,渲染数据流就被传输到一个能够为用户提供全息体验的设备上。有四种设备类型:手持设备(如智能手机和平板电脑)、全息显示器、AR眼镜和虚拟现实眼镜。利用这些设备,我们可以在房间中投射全息影像,并在其中移动。
媒体格式和编解码
全息通信的交付需要处理和传输各种视觉媒体格式。与传统视频会议中使用的成熟2D视频格式相比,这些新格式旨在表现更真实、交互式的人类和/或环境的视觉表示,然而,增加的信息负载可能会对整个通信链上的传输比特率造成较高压力。
例如,描述一个人的点云数据通常由每个时间实例(视频帧)10万到100万个点组成。以每秒30帧(fps)的速度传输此类数据(这是典型的视频会议流传输速率)大约需要300Mbps到3Gbps的可用带宽。这样的未压缩比特率在今天是不可行的,当前的真实视频会议系统使用媒体编解码器将带宽要求降低到个位数的Mbps(1-6Mbps),支持从250:1到1000:1的压缩比。
因此,为了实现全息通信服务的部署,我们需要能为浸入式3D表示打造类似压缩比的方法(如点云)。就在XR设备上处理3D视觉格式及其解码而言,可以考虑两种情况。
第一种情况,通常应用于分割渲染,3D格式的处理和解码在边缘完成,而XR设备使用传统的2D视频编解码器(如ITU-T,国际电信联盟电信标准化部门;ISO/IEC,国际标准化组织/国际电工委员会;MPEG,运动图像专家组;高效视频编码/H.265;或通用视频编码/H.266编解码器)对预渲染的2D视频进行解码。
第二种情况,3D格式的处理和解码在XR设备上完成,需要设备本身支持额外的沉浸式解码器。在ISO/IEC MPEG-I基于视频的视觉体积编码(V3C)和基于视频的点云压缩(V-PCC)中标准化的一种方法采用3D到2D投影算法,创建中介2D视频表示。我们可以使用2D视频编解码器的多个实例(例如H.265或H.266)对这些视频表示进行解码。
还有一种方法是使用“原生”3D编解码器,例如基于ISO/IEC MPEG-I几何体的点云压缩。在此编解码器中,压缩工具直接对3D点云表示进行运算。与V3C/V-PCC编解码器不同,这种方法需要在移动硬件芯片组中添加对此类原生点云编解码器的支持。
测试结果
为了确定使用现有5G技术构建端到端管道以实现高质量全息通信的可行性,我们在真实5G新空口(NR)网络中测试了图2所示的方法。
3D帧由连接到计算机的单个3D摄像头拍摄,计算机通过以太网连接到5G网络。捕获的流被压缩,并通过5G网络发送到连上AR眼镜的5G手机。解码和渲染在手机上执行,并显示于AR眼镜中。SLAM功能使您可以在3D表示中漫游。测量设置如图3所示。
影响全息通信体验质量的因素包括带宽、时延和质量。这三者统称为“权衡三角”,因为只有其中两个可以同时得到优化,而且总是以第三个为代价。在我们的测量中,我们选择改变质量和带宽。
通过调整点云中的点数(1万点/30fps到100万点/30fps),我们改变了质量。但压缩率保持不变,结果是带宽在5Mbps到100Mbps之间。
手机中的总时延由两个因素决定:解码和渲染。正如预期的那样,时延随着质量和带宽的增加而增加。很明显,高质量情况下,手机计算正在触及极限,造成大约170ms(毫秒)的时延。第一个实验表明,将解码计算从手机移动到边缘云可以将时延减少到70ms。
图4显示了四种质量级别(Q1-Q4)的比特率、往返时间和手机时延结果,配置都是1024x780分辨率和30fps。每个质量级别的平均点数分别是:Q1(900,000),Q2(225,000),Q3(100,000)和Q4(36,000)。
结论
我们的研究表明,消费者和企业都了解沉浸式增强现实应用(尤其是全息通信)的潜力。它们不仅可以提高工作场所的生产率,还可以提高社交和娱乐方面的体验。轻型AR眼镜和强大的3D压缩算法的出现,使得使用现有5G技术开始部署AR用例成为可能。
我们需要全链路带有边缘计算功能的体系结构,才能随时随地交付此类应用程序的3D捕获流和渲染,同时满足设备在尺寸、重量和能耗方面的要求。这种方法可以将高性能计算转移到网络,从而降低移动设备的能耗和端到端时延。
在扩展现实(XR)通信场景中引入点云等新媒体格式将极大地提高这种新通信方式的吸引力、有用性以及各方之间传输信息的效率。成功的通信需要对通信格式的共同认知,这通常是通过标准化来实现的。在Release 18中,3GPP承担了增强5G以提供更高效的XR服务支持的艰巨任务。由于XR的多个方面已经在其他标准化论坛上讨论过,因此其目的是尽可能地进行重用。
参考资料
- Ericsson Consumer and Market Insight report, Five ways to a better 5G
- Ericsson Consumer and Market Insight report, Busting the myths around the value of 5G for consumers
- Ericsson Consumer and Market Insight report, The dematerialized office
- International Organization for Standardization, ISO 9241-11: Ergonomics of Human System Interaction, 1998
- IGI Global, Hedonic, emotional, and experiential perspectives on product quality, in Encyclopedia of human computer interaction, 2006, Hassenzahl, M.
- Annual review of psychology, Emotion and decision making, 2015, Lerner, J. S; Li, Y; Valdesolo, P; Kassam, K. S.
- British Journal of Psychology, Most advanced, yet acceptable: Typicality and novelty as joint predictors of aesthetic preference in industrial design, 2003, Hekkert, P; Snelders, D; Van Wieringen, P. C.
- IEEE MultiMedia, Towards a QoE model to evaluate holographic augmented reality devices, 2018, Zhang, L; Dong, H; El Saddik, A.
- Interaction Design Foundation, What is Design Thinking?
- Facebook 2020 Research: Photorealistic Avatars & Full Body Tracking