来源:先进制造业
现在,“新基建”已成为拉动投资、促进消费、稳定就业和提升综合实力的重要抓手,如何加载高质量的业务生态成为释放新基建发展动能的关键。当前,以虚拟现实VR(包含增强现实AR)为代表的未来视频,正在成为工业数字孪生、沉浸式教学等传统行业转型升级与长短视频领域的重点发展路径。在今年新冠疫情的影响下,视频社交、视频会展等虚拟现实创新应用市场逆势增长,表现出对新型基础设施更加迫切的需求,并对通信基础设施的带宽、时延等网络传输能力、对算力基础设施的计算、存储能力提出了不断进阶支撑要求。
继 2016 年虚拟现实产业元年、2018年云 VR 产业元年、2019 年 5G 云 VR 产业元年过后,2020-2021 年将成为虚拟现实驶入产业发展快车道的关键发力时窗。
本期的智能内参,我们推荐中国信通院的报告《虚拟(增强)现实白皮书2021》,从VR(AR)的关键技术趋势、产业发展趋势和创新应用分析三大方面还原VR产业的最新发展情况。如果想收藏本文的报告,可以在物联传媒公众号回复关键词“VR”获取。
关键技术:“五横两纵”
总体来说,虚拟(增强)现实趋势包含“五横两纵”的技术框架与发展路径。其中,“五横”是指近眼显示、感知交互、网络传输、渲染计算与内容制作,“两纵”是指 VR 与 AR,各技术点发展成熟度具体如下。
近眼显示方面,快速响应液晶屏、折反式(Birdbath)已规模量产,Micro-LED 与衍射光波导成为重点探索方向。
渲染计算方面,云渲染、人工智能与注视点技术等进一步优化渲染质量与效率间的平衡。
内容制作方面,WebXR、OS、OpenXR 等支撑工具稳健发展,六自由度视频摄制技术、虚拟化身技术等前瞻方向进一步提升虚拟现实体验的社交性、沉浸感与个性化。
感知交互方面,内向外追踪技术已全面成熟,手势追踪、眼动追踪、沉浸声场等技术使能自然化、情景化与智能化的技术发展方向。
网络传输方面,5G+F5G 构筑虚拟现实双千兆网络基础设施支撑,传输网络不断地探索传输推流、编解码、最低时延路径、高带宽低时延、虚拟现实业务AI 识别等新兴技术路径。
▲虚拟现实关键技术体系(2020)
▲虚拟现实技术成熟度曲线(2020)
1、近眼显示:Micro-LED 与衍射光波导成为当前探索热点
近眼显示受限于核心光学器件与新型显示的发展,整体发展相对迟缓。2020 年随着市场需求日渐清晰,业界对近眼显示领域表现出更高的期待。
在显示领域,快速响应液晶与硅基 OLED(OLEDoS)作为主流的显示技术,处于实质规模量产阶段,微型发光二极管(Micro-LED)有望迅速发展。快速响应液晶被广泛用于 2020 年发布的新一代代表性 VR 终端,如 Facebook Quest 2 即采用一块改良后的 Fast-LCD 替换了上代产品中的两块 AMOLED。
当前快速响应液晶屏成为多数 VR终端的常用选择,主要表现为以超高清(如 5.5 英寸 3840*2160 分辨率)、轻薄(2.1 寸 1600*1600)、成本(5.5 寸 2160*1440)为设计导向的三类技术规格;
硅基液晶(LCoS)作为 AR 终端常用的显示技术得到了一定发展与认可,但其较高功耗与较低对比度的不足限制了该技术的发展地位;
OLEDoS 可显著改善 LCOS 在对比度、功耗与响应时间等方面的性能表现,成为新近发布 AR 终端的主流技术选择,
2019 年底京东方在昆明量产;LBS 激光扫描显示已用于微软等部分行业巨头的相关产品,亮度、功耗与体积等方面的优势使得该技术获得业界关注,但须搭配较为复杂的光学架构实现功能,短期内市场预期有限;
Micro-LED 成为继 LCD 和 OLED 后业界期待的下一代显示技术,广阔市场前景致使诸多行业巨头加速战略布局,苹果(LuxVue)、脸书 (InfiniLED)、谷歌(Glo、Mojo Vision)、英特尔(Aledia)等纷纷投资或收购该领域初创公司,业界正在规划的规格以 1.3 寸4K*4K 为主。
虽然 Micro-LED 具备低功耗、高亮度、高对比、反应速度快、厚度薄与高可靠等虚拟现实应用方面的性能优势,但现阶段由于 LED 外延成本较高,巨量转移的速度和良率尚未达到可量产的水平,当前 Micro-LED 显示技术正处在量产突破的前夕,梳理晶元光电股份有限公司、友达光电股份有限公司、镎创显示科技股份有限公司、三星等重点企业的发展进度可知,预计其规模量产时间在 2022 年左右;
在光学领域,作为下一代人机交互平台,虚拟现实呼唤以人为中心的光学架构,视觉质量、眼动框范围、体积重量、视场角、光学效率与量产成本间的权衡取舍、优化组合成为驱动技术创新的主要动因。
超薄 VR(Pancake)利用半透半反偏振膜的双透镜系统折叠光学路径,将头显重量降至 200g 以内,体积缩减至传统终端的三分之一,缓解了 VR 头显尺寸重量与便携性的痛点,且可保证较好的显示效果及更大的视场角;
折反式(Birdbath)得益于设计难度与量产成本的优势,触发了消费级 AR 终端的规模上量,基于这一传统技术路径的光学模组体积较大厚度减薄困难,眼动框范围受限,其光学系统须搭配算法缓解畸变,且光效难以高于 15%,效果和成本较大程度受限于微显示器的发展,高亮的 OLEDoS 成为最优搭配,目前我国已有厂商采用该技术大量出货;
自由曲面在早期得到业界认可,其显示效果、光效表现较好,但量产加工难以保持较高精度,局部精度下降可导致图像局部扭曲和分辨率降低,存在产品一致性难题。此外,通过厚棱镜观察真实世界会出现一定程度扭曲和水波纹样畸变,这些因素影响了自由曲面的发展潜力;
光波导在 AR 领域的技术发展前景明确,可进一步分为阵列和衍射光波导两大技术路线。相比其他光学架构,光波导外观形态趋近日常眼镜,且通过增大眼动框范围更易适配不同脸型用户,有助于推动消费级 AR 产品显著升级。
其中,阵列光波导采用传统光学冷加工技术,连续多层半透半反镜面阵列镀膜、贴合、切割等复杂多步工艺对产品良率提升提出较大挑战,量产成本难以降低。此外,基于阵列光波导的二维扩瞳方案对加工工艺的挑战极大,短期难以商用;
衍射光波导依循光学元件从毫米级到微纳级、从立体转向平面的技术趋势,采用平面的衍射光栅取代传统的光学结构。衍射光波导利用经过两次两个方向的扩瞳光栅或二维光栅以实现二维扩瞳,从而给以人为中心的光学设计与用户体验优化留有更大的容差空间。衍射光波导理论上具有较高的可加工性,成本可控,批量生产难度显著低于阵列光波导,现已成为国内外标杆企业研发创新的活力区。此外,为了改善色散问题,针对 FOV 和动眼框内的“彩虹效应”,如何用一层光栅作用于 RGB 三色且实现最大的 FOV 成为重要的技术挑战。
目前,衍射光波导根据光耦合器的差异可分为利用纳米压印技术制造的表面浮雕光栅波导(Surface Relief Grating,SRG)及基于全息干涉技术制造的全息体光栅波导(Volumetric Holographic Grating,VHG)等。其中,微软、Magic Leap 等多家 AR 明星企业的规模量产证明了 SRG这一技术路线在经济成本上的可行性,当前国内有条件建设该产线的厂商相对有限。全息体光栅由于受到可利用材料的限制,致使其在视场角、光效率、清晰度等方面尚未达到表面浮雕光栅的水平,但因其在量产经济性等方面的发展潜力,业界对此方向的探索未曾停歇;
可变焦显示成为当前解决辐辏调节冲突(Vergence Accommodation Conflict, VAC)的重要技术,继 2018 年脸书发布基于可变焦显示的第一代原型机 Half Dome 后,于 2020 年开始了第三代原型机实验室外场景环境下的集成验证,Half Dome 3 通过电子变焦取代了此前的移动式机械变焦,极大程度的优化了头显体积重量与系统可靠性,有望开启可变焦显示技术产业化的量产之路;全息显示通过全息方式显示多个焦面,可作为未来解决辐辏调节冲突的技术路径。目前,由于光相位调制器(SLM)价格昂贵、全息图生成算法尚不完善、所须计算量大且难以实时完成等因素致使该技术短期内难以推广应用。
▲虚拟现实近眼显示部分代表性技术路线
2、渲染计算:云渲染、人工智能与注视点技术引领VR 渲染 2.0
虚拟现实渲染领域的主要技术挑战在于面向传统游戏的上述权衡范式难以直接套用于虚拟现实应用,表现为相比游戏画面的主流渲染要求(如 FHD 分辨率所须每秒渲染六千万像素且不高于 150 毫秒的用户交互时延),虚拟现实渲染负载与 MTP 时延须提升十倍量级才可达到初级沉浸的入门体验。
此外,手机式/一体式 VR 与 AR 移动平台的渲染功耗预算尤为有限。当前,针对虚拟现实渲染所面临的“小马拉大车,既要马儿吃得少,又要跑得快”的技术挑战,业界先后发展出异步时间扭曲(ATW)、异步空间扭曲(ASW)、多视图渲染(MultiView)、多分辨率渲染、畸变补偿渲染等一系列优化算法,旨在弥合传统游戏与虚拟现实渲染间的技术断点。
另外,在跨越了沉浸体验的初始门槛后,渲染质量与效率间的平衡优化成为时下驱动虚拟现实渲染技术新一轮发展的核心动因,即用户需求的持续进阶放大了渲染画质、速度、成本、带宽等多目标规划的求解难度。在智能云控与以人为本的创新架构下,云渲染、人工智能与注视点技术触发虚拟现实渲染计算 2.0 开启。
云渲染聚焦云网边端的协同渲染,时延不确定性成为关键技术挑战。将虚拟现实交互应用所须的渲染能力导入云端,有助于降低终端配置成本,帮助用户在移动头显平台获得媲美高价 PC 级的渲染质量。在云化架构的引领下,各类内容应用可更便捷地适配差异化的终端设备,也有助于实施更严格的内容版权保护措施,遏制内容盗版,缓解用户体验痛点清单中的部分问题。相比虚拟现实单机版的发展思路,部分企业对云渲染这一网联式技术路径存在发展定见。
云游戏平台厂商认为网络状况难以预测,因而向网络中“倾泻”数据,最终造成网络资源浪费,客户端接收到无序数据,致使端侧须为此付出额外的计算成本。事实上,本地渲染与云渲染并非处于相互独立的发展轨道,亦非非此即彼的替代关系,相比单机版渲染依赖终端完成,云渲染并非完全依靠云侧进行,而是聚焦云网边端协同分工,旨在实现“不要让终端补缺云网协同落下的课”。当前,针对时延、带宽、丢包、抖动等技术挑战,业界通过调节 CPU 与 GPU 协同编码、前向纠错率、缓冲区大小等方式实现 QoS 保障。
需要指出的是,比之时延因素本身,网络、算力等导致的时延不确定性对虚拟现实云渲染用户体验影响尤甚,不同于传输环节的丢帧,因时延不确定性产生的弃帧主要是由帧未能及时到达,致使在终端显示环节丢弃(不显示)某些帧,在虚拟现实用户感受上表现为画面卡顿、跳跃与拖尾,有测试表明,对于 1080P@144 帧的云渲染体验,7ms 网络抖动是大众用户的感知边界。除流媒体 QoS 视角外,ATW/ASW 成为虚拟现实渲染标配的“弃帧保险”,由于 ATW 导致视觉黑边,可通过扩大渲染面积予以解决。此外,在虚拟现实体验过程中用户即便没有位移,眼睛亦会发生位置改变,因而引入 ASW,前者适用于远景静物,后者侧重近景动画。
▲基于时延不确定性的云渲染情况示意
注视点技术入选业界标配,基于眼球追踪的注视点渲染与注视点光学成为热点技术架构。由于提供高分辨率与色彩视觉的视锥细胞集中分布在人眼最中心区域(Fovea),眼球中央向外的区域视觉感知加速模糊(30°内每远离 2.5°视觉分辨率降低一半),业界据此提出注视点渲染技术,通过对视场角内各部分画面进行差异化渲染,显著节省算力开销,据 VRPC 统计,注视点渲染已成为 2018 年虚拟现实渲染领域专利数量最为富集的细分技术。
2020 年10 月脸书发售第二代VR一体机 Quest 2,新增动态固定注视点功能(Dynamic Fixed FoveatedRendering, DFFR),系统可根据 GPU 帧率高低自动决定是否触发固定注视点渲染,内容开发者无须延续 Oculus Quest/Go 平台上手动配置 FFR 的经历,也无须为 Quest 2 DFFR 修改既有内容应用。鉴于眼球运动致使注视点区域随之改变,基于眼球追踪的可变注视点渲染成为业界热点,在日常扫视(Saccade)过程中,眼球运动速度高达每秒900 度,因而精准化的眼球追踪成为了技术挑战。
此外,作为注视点技术路径的新生分支,注视点光学通过组合低分辨率/大 FOV(60+°)与高分辨率/小 FOV(20°)两个显示系统,且以手机面板与微显示器或两个不同分辨率的微机电(MEMS)扫描显示系统为常见搭配,旨在实现用户体验分辨率不因渲染算力与显示像素数减少而降低。当前,注视点渲染与注视点光学日益成为支撑上述目标的焦点性技术架构,业界对此积极布局,且两者具备潜在的结合空间。通过梳理各类注视点技术与相关量产终端可知,基于眼球追踪的可变注视点渲染与注视点光学已成为时下技术产业化的主攻方向,且后者对渲染算力及显示像素数要求较低。
▲各类注视点技术基本情况
人工智能将成为虚拟现实渲染质量与效能的倍增器与调和剂。当前,业界日益聚焦深度学习渲染这一热点领域,以期针对多样化的业务场景,解锁平衡质量、速度、能耗、带宽、成本等多维渲染指标间的技术定式。
在渲染质量方面,比之基于传统渲染软硬件架构的超采样(SSAA)、多重采样(MSAA)、快速近似(FXAA)、子像素增强(SMAA)、覆盖采样(CSAA)、时间性抗锯齿(TXAA)等抗锯齿技术,在 2018 年英伟达发布 GeForce RTX 20 系列显卡中,推出了包含深度学习超采样(DLSS)功能的驱动程序,通过以较低分辨率渲染图像再经 AI 算法填充像素的方式,显著提升了画面精细程度。得益于独立的 AI 计算单元,DLSS 运算基于 Tensor Core 完成,无须占用显卡 CUDA 通用运算单元,释放了传统抗锯齿技术对渲染计算资源的负载压力。2020 年英伟达推出 DLSS 2.0,通过持续优化深度学习算法,从而以较低渲染分辨率进一步提升了体验分辨率与帧率的性能表现。
在渲染效能方面,为在移动终端平台加载高质量的虚拟现实沉浸体验,业界结合深度学习与人眼注视点特性,积极探索在不影响画质感知的情况下,如何进一步优化渲染效能的技术路径。脸书提出一种基于AI的注视点渲染系统DeepFovea,利用生成对抗网络(GAN)的新近研究进展,通过馈送数百万个真实视频片段模拟注视点外围像素密度降低来训练 DeepFovea 网络,GAN 的设计有助于神经网络根据训练视频的统计信息来补缺细节,进而得到可基于稀疏输入生成自然视频片段的渲染系统。测试显示该方案可将渲染计算负载降低约十倍,且能够管理外围视场的闪烁、锯齿和其他视频伪影。
在图像预处理方面,预先对图像进行降噪处理有助于提升后续图像分割、目标识别、边缘提取等任务的实际效果,与传统降噪方法相比,深度学习降噪可获得更优的峰值信噪比(PSNR)与结构相似性(SSIM),如英伟达 OptiX 6.0 采用人工智能加速高性能降噪处理,从而减少高保真图像渲染时间。在端云协同架构方面,随着电信运营商云化虚拟现实发展推广,针对多样化的应用场景与网络环境,人工智能有望成为渲染配置自优化的重要探索。
3、内容制作:交互性体验和支撑工具快速发展
在弱交互领域,虚拟现实视频的社交性、沉浸感与个性化特质日益凸显,强弱交互内容界线趋于模糊。由于体育赛事、综艺节目、新闻报道与教育培训等直播事件受众群体明确,商业落地相对成熟,VR直播成为丰富虚拟现实内容的利器,可较大程度上缓解目前高品质VR 内容匮乏、“有车没油”的问题。
对于手机式、一体单目/多目、阵列式、光场式等内容采集设备的技术选型,VR 直播呈现两极化趋势,即满足专业生产内容(PGC)高质量、多格式与用户生成内容(UGC)操作便捷、成本可控的发展要求。此外,作为 VR 直播相比传统直播独有的关键技术,图像拼接可基于特征、光流等多种不同的处理域进行拼接,其中,图像配准涉及特征空间、相似性度量、搜索空间和搜索策略的选择,图像融合须考虑拼接处过渡自然和整体画面协调,因摄像机和光照强度的差异,图像间亮度和色度不统一,缝合后的图像会出现明暗交替或有明显接缝的问题,因而需要进行亮度和色度的均衡处理。
当前,VR 直播可分为表演区与观众区,在观众区引入以用户为对象的虚拟化身,有助于进一步增强视频社交性。同时,通过Unity、Unreal 等开发引擎进行虚拟现实拍摄与制作,而后传至头显终端,可避免基于用户交互信息的本地渲染负载。未来,随着 VR 直播的常态化,制作上云将成为简化虚拟现实内容摄制流程的关键技术。
在强交互领域,VR 社交成为游戏以外的战略高地,虚拟化身正在拉开虚拟现实社交大幕。虚拟化身技术由来已久,在传统游戏中用户可见能够控制的整体人物形象(第三人称)或看到模拟手和身体等部分形象(第一人称射击游戏),受限于 2D 视频、狭窄视野及有限追踪感知能力,虚拟化身难以被视为用户本人。
相比之下,VR 用户对虚拟化身的感知与控制构成了不再脱钩的交互闭环,即追踪采集的用户数据被实时投射于虚拟化身外观及行为表现。得益于 3D 沉浸视频、超大视角及进阶追踪能力,位置、外貌、注意力、姿态、情绪等日益多元精细的身态语汇激活了虚拟化身潜藏的社交表现力。通过营造多人共享的临场感,VR 社交进一步放大了虚拟现实强交互业务的互动程度,并结合日常交流所须的适宜间距、注视转头、手势表情等潜藏的通识准则来优化虚拟化身。
此外,一味追求照片画质级的虚拟化身存在“恐怖谷”效应,过高拟真度的外貌表现大幅拉升了用户对虚拟化身行为举止拟人化的心理预期,从而降低了虚拟化身总体可信性。如何持续提高虚拟化身真实感,同时精准调和外貌与行为拟真度间的配伍关系,成为 VR 社交虚拟化身的主要技术挑战与发展方向。
在技术实践上,虚拟化身跨 VR 终端平台的兼容性不断提高,相关内容制作 SDK 开始向游戏引擎中集成迭代,体育赛事、综艺活动与会议展览等 VR 直播业务解锁了虚拟化身自定义的市场需求,用户在Venue 等代表性虚拟现实内容直播平台中,可根据发型、服饰、妆容、配饰等配置组合,个性化定制亿万种虚拟化身。
由于 VR 社交领域存在诸如多达数百人同时加载虚拟化身等性能挑战,针对不同的场景功能,可通过降低 Drawcall 频次、设置渲染优先级、匹配差异化的顶点数目与纹理精度等技术实践,梯度调整虚拟化身视觉质量,优化性能表现。
在技术选型上,基于口、眼、表情、上肢拟真等的虚拟化身技术初步成熟,现已开始用于 VR 社交应用。
在内容相关的其他支撑性技术上,WebXR、OS、OpenXR 等重点领域稳健发展。作为电脑、手机、平板等智能终端用户交互窗口的延续,据统计,约有 2/3 虚拟现实头显用户使用浏览器。WebXR 推动了虚拟现实内容与各类终端平台、操作系统间的解耦,提供了更加便捷的网页 VR/AR 应用开发环境,将成为下一代 Web 沉浸体验的基石。
2020 年 7 月 W3C 发布新版 WebXR 规范草案,与此前 WebVR 相比,WebXR 新增了对 6DoF 追踪定位、交互外设与 AR 应用的支持,A-Frame、React360、Three.js、Babylon.js 等网页开发框架均已支持。
当前,内容不足成为虚拟现实用户面临的主要体验痛点,内容生态发展成效被碎片化的软硬件平台分化稀释,2019 年 7 月 Khronos 对此发布了 OpenXR 1.0,旨在实现内容应用无须修改移植即可跨头显平台运行。同时,OpenXR 强化了对 WebXR 网页开发框架的支撑,深化了对新一代 3D 图形应用程序接口 Vulkan 的协同,适配了手势、眼动追踪等多元化交互方式,丰富了 5G 边缘计算等应用场景。
在操作系统方面,实时性、多任务、感知交互与端云协同成为当前发展焦点。手机 OS 对于虚拟现实用户姿态变化难以做出实时性响应,系统设计存在诸多缓存逻辑,虚拟现实 OS 更像稳态系统,不论用户主动操作与否,从姿态到渲染保持稳定运行,MTP 时延约束成为实时性挑战。由于虚拟现实空间可极大延展,支持用户同时可见更加丰富信息,操作系统多任务特性成为必然需求。在三维系统中的多任务化须实现系统多应用的三维化合成,在虚拟现实空间中布置各应用的运行位置,并实现 3D 交互,如微软 Hololens、Facebook Quest 等代表性终端对操作系统三维化多任务运行的支持。
2020 年虚拟现实操作系统持续演进,VR、AR OS 在感知交互方面日渐趋同,基于计算机视觉的头手成为发展重点,脸书发布 Oculus Quest 系列验证了计算机视觉实现的可行性和准确性,须挂载 4 颗以上实时性要求较高的摄像头,操作系统亦须适配调优。此外,对于云化虚拟现实业务需求,如何同步终端和云端数据成为操作系统技术演进焦点,如微软推出 Hololens云方案,用户可在云端记录三维地图扫描信息。
开发引擎方面,基于OpenGL ES 底层框架,面向移动设备的低功耗、可视化开发引擎助力VR 应用开发效率提升。对于移动虚拟现实设备,如何平衡性能和功耗成为选择虚拟现实开发引擎的关键因素。Unity、Unreal 借助于其在游戏领域的优势积累,目前作为虚拟现实强交互应用的主要开发引擎。近年来随着国内虚拟现实产业的快速发展,Nibiru Studio 等国产虚拟现实开发引擎持续完善。
4、感知交互:自然化、情景化与智能化为前行之路点亮灯塔
感知交互强调与近眼显示、渲染计算、内容制作、网络传输等关键领域间的技术协同,各大 ICT 巨头与虚拟现实科技型初创公司对此深度布局,积极投入。当前,追踪定位、沉浸声场、手势追踪、眼球追踪、三维重建、机器视觉、肌电传感、语音识别、气味模拟、虚拟移动、触觉反馈、脑机接口等诸多感知交互技术百花齐放,共存互补,并在各细分场景下呈现相应的比较优势。未来,理想的人机交互可让虚拟现实用户聚焦交互活动本身,而忘记交互界面(手段)的存在,界面愈发“透明”,自然化、情景化与智能化成为感知交互技术发展的主航道。
沉浸声场体验“富矿”尚待挖潜,听音辨位、空间混响、通感移觉等成为发展重点。虚拟现实沉浸体验的进阶提升有赖于对视觉、听觉等多感官通道一致性与关联性的强化。由于周边环境、头耳构型等多重因素会影响双耳听觉闻声辨位,人们通过转头寻视声源,以消除定位判定的模糊性。虚拟现实可结合用户头部追踪特性,解决数字内容长久以来双耳听觉的问题。基于多通道 3D 全景声场拾音技术(Ambisonics),声音表现可依据用户头动情况进行动态解码,虚拟现实用户即可实现更加精准的听音辨位。
另外,耳机佩戴致使 3D 全景声被“压扁”,如何解决因声音高低位置出现的辨位失真成为关键问题。目前,脸书、微软、英伟达、杜比、谷歌、高通等对沉浸声场积极投入,并结合人体 3D 扫描开始构建差异化的头部相关传递函数(HRTF)数据库,旨在进一步实现虚拟现实声音的“私人定制”。由于游戏等应用仅可准确渲染直达声,缺少对房间声学中早期反射和混响的逼真模拟,在一定程度上影响了用户“眼见为虚,耳听为实”的沉浸体验。
在混响声模拟技术方面,以往开发人员须将混响手工添加至虚拟环境中的各个位置,操作修改繁冗耗时,对算力与内存资源需求较高,且因各声学响应预先计算,仅用于结构保持固定的静态环境。当前,脸书等企业在房间声学上取得了一定成果,混响声可根据环境的几何形状自动精准生成,且符合实时虚拟现实应用严格要求的计算和内存预算,同时实现了随环境空间构型变化的动态混响声模拟,如VR 密室等探秘游戏。此外,诸如“风随柳转声皆绿”的通感表达成为了虚拟现实视听关联性发展的特色方向,如《Rez Infinite》等 VR通感游戏的上市迭代。
Inside-out 技术全面成熟,追踪定位将呈现集视觉相机、IMU 惯性器件、深度相机、事件相机等多传感融合的发展趋势。追踪定位作为感知交互领域的基础能力,业界投入大,且日趋成熟。在 VR 领域,存在 outside-in 和 inside-out 两条技术路线。通过超声、激光、电磁、惯导等多种传感器融合定位较单一惯性和光学定位减少了计算资源消耗,在一定程度上优化了功耗与鲁棒性表现。目前,基于视觉+IMU的 inside-out 追踪定位技术实现产品化,开始大量应用于头显终端,代表产品有 Oculus Quest1/2、HTC Vive Focus 等。
此外,2019 年脸书、HTC 发布的新一代主机式 Rift S、Vive Cosmos,标志着 inside-out的追踪定位方式与此前 Rift 的 outside-in 追踪效果足够接近,这种省去基站外设的追踪方式符合大众市场发展趋势,未来将持续优化。在AR 领域,inside-out 成为唯一主流技术路线,基于终端平台的差异,视频投射式 AR(video see-through)以苹果 ARKit、谷歌 ARCore、华为 AREngine 以及商汤 SensAR 为代表的 AR SDK 普遍遵循单目视觉+IMU 融合定位的技术路线,在 2019 年对其跟踪精度和鲁棒性进行了进一步提升,毫米级别的定位精度使得 AR 尺子等空间测距等应用大量出现。
光学投射式 AR(optical see-through)以微软 Hololen2、Magic Leap One 为代表的 AR 眼镜普遍遵循双目/多目视觉+IMU 融合的技术路线,可提供毫米级别精准度的定位输出和世界级规模的6DoF 追踪定位,其中 SLAM 算法的稳定性主要受光线与环境复杂程度影响。
由于室外光线会影响到摄像头的使用,Oculus 在黑暗条件下难以提取环境信息,从而影响 SLAM 结果。Hololens2 采用 TOF 提供主动光辅助定位,在一定程度上缓解了该问题。环境复杂度表现为 AR眼镜受限于摄像头可实现高精准度获取信息的范围限制,在过于空旷(无参照物)的环境中,难以实现厘米级别定位。此外,随着基于神经拟态视觉传感器(dynamic vision sensor)的事件型相机技术发展,利用其高帧率、抗光照等特性,追踪定位技术鲁棒性有望进一步提升。
手势追踪初步成熟,“手势追踪+”将成为虚拟现实输入交互新模式。相比其他虚拟现实输入交互方式,手势追踪技术的价值优势在于消减了用户对交互外设的配置操作与购买成本,无须考虑充电配对问题,且手势信息等身态语增强了虚拟现实体验的社交表现力,赋予了内容开发者更大的创作空间。鉴于追踪范围、体积重量、成本功耗、操作部署等方面的优势,基于黑白/RGB 摄像头的机器视觉技术路径已成为标记点、3D 深度摄像头方案外手势追踪的重点实现方式。当前,手势追踪技术在多维发展方向上初步成熟。
在算法鲁棒性优化方面,通过收集用于深度学习的多类人群手势及环境数据,可探知手部位置及关节指尖等特征点信息,进而结合反向动力学算法构建手部3D 模型。在计算及功耗开销控制方面, ,通过深度神经网络量化压缩技术,精准可靠的手势追踪算法得以在移动式虚拟现实终端上(一体式、手机伴侣)以较低算力、时延与功耗预算运行。在交互表现性探索方面,由于虚拟现实手势输入发生在 3D 空间中,照搬手机触屏的2D 交互语言将引发时延、遮挡、触觉反馈等诸多输入问题。
时下业界围绕人因工程视角,就输入交互进行创新设计,以“捏”代“按”,可有效节省交互空间,明确交互起止时点,获知输入反馈。除单手追踪外,双手、手与笔、手与键盘、手与控制器等外设配合成为手部交互表现性探索的新方向。
其中,2020 年脸书与罗技合作,双方基于实体键盘与双手追踪的交互组合,以期实现虚拟现实无界办公的体验愿景。需要说明的是,发展手势追踪并非旨在取代目前常见的 VR 控制器,未来虚拟现实手部交互将与 VR 控制器解绑,即由 VR 控制器输入向基于手势追踪的裸手输入、裸手+控制器等交互外设协同共存的方向发展。
眼动追踪成为虚拟现实终端的新标配。早期虚拟现实终端(如HTC Vive、Hololens V1、Meta 2 等)以 6DoF 头动追踪技术作为眼动追踪的近似替代,在达成沉浸体验门槛后,日益进阶的用户需求开始对眼动追踪提出了更高要求。眼动追踪主要涵盖注视点追踪、瞳孔位置尺寸追踪、眼睑数据采集、生物识别等,得益于该领域在虚拟现实融合创新与以人为中心研发思路上的技术潜力,眼动追踪日渐成为VR/AR 终端的新标配,且应用场景趋于多元。例如,注视点追踪可用于眼控交互、可变注视点渲染与注视点光学、FOV 一致性补偿、可变焦显示系统中的辐辏调节冲突控制等任务场景。
眼动追踪技术主要分为基于特征与基于图像的发展路径。两种方案均须红外摄像头与 LED完成,前者通过光线在角膜外表面上普尔钦斑(Purkinje image)反射以推算瞳孔位置,已成为 SMI(苹果)、EyeFluence(谷歌)、HololensV2、Magic Leap One、七鑫易维、Tobii 等代表性产品的技术方案。
当前,眼动追踪技术发展的难点与焦点在于眼动算法如何基于所采集的原始眼动行为来“透视”用户意图。此外,除追踪精度指标外,用户个体与环境差异(眼球角膜、佩戴眼镜、周围光线等)对系统通用性提出了更高要求。时下多数眼动追踪系统须先行完成用户标定校准后方可使用,业界积极尝试在现有眼动系统架构中更多引入深度神经网络等人工智能算法,以期精简用户使用流程,并增强系统通用性。
环境理解与 3D 重建将成为虚拟现实感知交互领域技术内核之一。在数据采集方面,由于早期发展受到深度图像传感(RGBD)器件功耗和精度的限制,环境重建技术门槛较高,大多基于激光雷达和大功率 ToF 器件实现,重建过程繁复,且采集设备昂贵。随着 OPPO、三星、华为等主流手机厂商旗舰机型上预制深度相机,激光雷达大幅降价,以及微软发布的 Kinect V4 版本可提供 720P 高精度深度图,较为成熟的产业链供应使得低成本、高速率生成可用于 VR/AR 的高质量3D 模型成为可能,对周边环境和物体的理解和建模逐渐平民化。
基于 RGBD 相机的动态语义化重建技术逐渐成熟,针对人体形状、运动、材质不易描述等难点,基于参数化人体模型和人体语义分割的语义化分层人体表达、约束及求解方式,在提升人体三维重建精度的同时,实现了人体动态三维信息的多层语义化重建。在数据处理方面,随着 AI 能力的渗透释放,2019 年学界出现较多基于单目 RGB 进行深度估计、人体建模、环境建模的学术论文,并开始快速进行技术产业化推进。
AI 与三维重建技术的融合创新使二维到三维图像转化以及三维场景理解成为可能。通过海量真实三维重建数据的训练,能够实现单目深度图像估算,通过二维照片估算出真实空间的三维深度数据,从而生成准确的 3D 模型。借助点云金字塔模型提取出三维点云在多个尺度上的局部特征,再通过图模型的三维点云语义分割和特征聚合,可完成三维点云体素级别的分类并最终实现基于三维点云数据的场景理解。
5、网络传输:5G+F5G 构筑虚拟现实双千兆网络基础设施支撑
2019 年 5 月工信部、国资委共同印发专项行动,确定开展“双 G双提”,推动固定宽带和移动宽带双双迈入千兆(G 比特)时代,明确提出 2019 年我国千兆宽带发展的目标,2020 年 9 月,国务院常务会议确定加快新型消费基础设施建设,第五代固定网络(F5G)千兆宽带与 5G 网络共同构成双千兆接入网络联接,助力千兆城市建设。
当前,作为影响虚拟现实业务体验的关键因素,传输网络不断地探索传输推流、编解码、最低时延路径、高带宽低时延、虚拟现实业务 AI识别等新的技术路径,旨在实现无卡顿、无花屏、黑边面积小、高低清画质切换无感知等用户体验,让产业有评估业务质量的技术和方法,加速虚拟现实的规模化发展。
边缘计算赋能双 G 云化虚拟现实提档升级。多接入边缘计算(MEC)将密集型计算任务迁移到附近的网络边缘,降低核心网和传输网的拥塞与负担,减缓网络带宽压力,提高万物互联时代数据处理效率,能够快速响应用户请求并提升服务质量。同时,通过网络能力开放,应用可实时调用访问网络信息,有助于应用体验的提升。MEC在组网上与传统网络的本质变化是控制面与用户面的分离,一般控制面集中部署在云端,用户面根据不同的业务需求下沉到接入侧或区域汇聚侧。
用户面下沉的同时,根据业务具体可将云服务环境、计算、存储、网络、加速等资源部署随网络延伸到边缘侧,实现各类应用和网络更紧密的结合,用户也可获取更为丰富的网络资源和业务服务。针对虚拟现实业务,标准组织 ETSI 于 2014 年底成立了 ISG MEC,Phase1 和 Phase2 标准已发布场景、需求、架构和开放 API 等,虚拟现实作为七大场景之一,即边缘应用快速处理用户位置和摄像头图像,给用户提供实时辅助信息。其中,MEC 的 APP 和 3GPP R14/R15 的边缘 DN 实现有机融合,UPF 作为 MEC 的用户面,NEF 作为 MEC API 能力开放提供者。
由于虚拟现实编码率高、交互性强,在 4G 网络和百兆以下家宽网络部署中,仅可满足 2K 业务,尚难以满足 4K/8K虚拟现实业务的规模部署,故 5G/MEC 的上行 150Mbps 大带宽以及网络时延小于 20ms 低时延能力可有效满足虚拟现实进阶体验。当前,云化虚拟现实业务基于 MEC 下沉部署,是优化网络传输效率,提升体验保证的重要途径。
MEC 可为应用层提供 CPU/NPU/GPU 算力和存储等基础设施能力、动态网络路由和精准资源调用,用户感知和网络能力开放以及运营商可靠可信可达的 SLA 服务能力。通过 MEC 边缘服务,可进一步降低云化虚拟现实业务的网络连接和终端硬件门槛,加速虚拟现实业务在 5G 网络和固定宽带网络的规模商用,相关商业模式转型或创新成为可能。
千兆光网+云 VR 将成为 F5G 时代的典型特征与重点应用的结合。F5G 重点聚焦于全光联接、增强型固定宽带和可保障的极致体验三大业务场景,以 10G PON、Wi-Fi 6、200G/400G、NG OTN 和 OXC 等技术为代表,具有大带宽、低时延、能力开放、高稳定全光联接特性。为满足多路用户并发诉求,10G PON 是虚拟现实业务承载的必然选择。
此外,业界在大力推进光纤入户(FTTH/FTTO)的同时,进一步延伸光纤网络部署,推动对家庭、企业的网络升级改造,打通光纤网络“最后一米”接入,实施“光纤到房间 FTTR(Fiber to the Room)”、“光纤到终端”,以期配合 Wi-Fi6 技术保障每个房间均可实现高质量的虚拟现实体验,并解决云 VR 高密接入和多机位直播场景下的网络难题。
IP 架构简化、全光网络、端网协同等成为虚拟现实承载网络技术的发展趋势。IP 网络架构扁平化和网络切片有助于提升承载网的传输效率,提供差异化的体验保证。由于虚拟现实对带宽、时延、丢包率有较高要求,当前传统高汇聚、高收敛承载网络面临效率低、拥塞概率大、时延长、相对丢包多等问题。基于上述原因,首先需要对传统网络的层次和网络结构进行简化,消除 LSW 汇聚层和城域汇聚层,BNG 向上直连 CR,OLT 直通 BNG,提高承载网传输效率。
信道子接口和FlexE等网络切片技术可在同一物理端口上实现不同等级业务间的隔离,为云化虚拟现实业务提供带宽和时延保证。随着 IPV6 技术的推进,业界将逐步从 IPv4 扩展到 IPv4/v6 双栈,直至切换为 IPv6网络,从而减少网络中 IP 地址 NAT 转换,进一步简化网络结构。基于全光网的 E2E 网络切片架构有助于提供确定性低时延和大带宽保证。
由于 IP 网络的带宽是多业务共享,在流量拥塞的情况下难以保证时延敏感业务。光通信技术具有容量大,确定性时延、功耗低等特点。随着虚拟现实网联云控技术路径的发展,数据中心之间的骨干网络可构筑立体化的智能光网络,实现 DC 之间的一跳直达。OTN 设备逐步下沉到 CO 机房,在城域网络中区分业务,为高品质业务进行高优先级质量保障,提供一跳入云的能力。
OLT 设备可以连接 OTN 或者 BRAS,是业务流走向光网络还是 IP 网络的选择节点,为满足多种业务不同的服务等级诉求,OLT 须支持网络切片功能,即在同一个物理端口上划分出可保证服务等级的切片。
端网协同业务识别技术可将运营商虚拟现实业务从众多业务流中精准识别,并进行优先保障。考虑到虚拟现实 CDN 和云渲染边缘节点众多,且地址分散,在网络设备上静态预配置服务器地址段进行识别的传统方法,在规模较大的家庭网络设备等方面实际执行存在困难。
为应对上述问题,可在终端与家庭网关设备等边缘网络节点间增加数据通信接口,以便获得访问服务器地址、业务类型、操作类型、网络需求等业务信息准确及时的通报,以及终端侧的业务体验、流传输与网络侧空口传输指标等的数据共享。
VR和AR与“新基建”背景下的多个重点领域密切相关。在今年新冠疫情的影响下,视频社交、视频会展等虚拟现实创新应用市场逆势增长,表现出对新型基础设施更加迫切的需求,并对通信基础设施的带宽、时延等网络传输能力、对算力基础设施的计算、存储能力提出了不断进阶支撑要求。2020年,VR、AR迎来了快车道的发力窗口期,我国在这个行业中的很多细分领域与国际差距不大,若能抓住此次机遇,未来会早就一个国际领先的产业链条。
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”