新的视频会议模式：StarlineProject

- 效果展示部分
- 用户参与度部分
- 技术细节
- - 机械装置以及硬件配置。
  - 视频系统
  - - 照明
    - 人脸跟踪
    - 压缩和传输
    - 图像渲染
  - 音频系统
  - - step1：捕获音频
    - step2：音频去噪处理
    - step3：压缩、传输、解压
    - step4：渲染
- 可以改进的点

效果展示部分

〔映维网〕谷歌光场显示屏Project Starline

Starline 本质上是一个 3D 视频聊天室，旨在取代一对一的 2D 视频电话会议，让用户感觉就像坐在真人面前一样。

相互视频的人，不需要佩戴任何眼镜或者头盔，真实的就像坐在对面聊天。

用户参与度部分

google组织了117名参与者在九个月期间共举行308次会议，平均持续时间为35.2分钟，并产生了共有296份调查回复。

超过87%的调查回复Starline项目在在场感、注意力、个人联系、反应评估四个方面，比传统视频会议略好或好得多。

(W-P)统计表明，所有情绪改善在统计上显著

他们回忆的会议内容相较于传统视频回忆大约多了28% ，参与者在我们的系统中也显著地表现出更多的非语言行为(手势、点头和眉毛运动)，这有利于促进融洽的人际关系。

观察到的平均延迟为105.8 ms(标准偏差9.1 ms)，在人类参与者感知同步对话所需的250 ms上限之内。

综合表明，即使Starline的3D重建在视觉上存在缺陷，仍然提供了一场更投入的交流体验。

技术细节

机械装置以及硬件配置。

首先来看看机械装置以及硬件配置。

Project Starline 系统围绕一个以 60Hz 运行的大型 65 英寸 8K 面板构建，三个用于捕获彩色图像和深度数据的「捕获 pod」，还包括四个额外的追踪摄像头、四个麦克风、两个扬声器和一个红外投影仪。

系统需要捕获来自四个视角的彩色图像以及三个深度图，共计七个视频流。系统还需要捕获 44.1 kHz 的音频，并以 256 Kbps 编码。

Project Starline 配备了四块高端 Nvidia 显卡（两块 Quadro RTX 6000 卡和两块 Titan RTX）来对所有这些数据进行编码和解码。

基于屏幕的系统的原因：
1、当前大多数AR和VR头盔的重量和不适
2、还消除了通过耳机捕捉人脸的困难
3、目前没有一款AR头盔有足够的视野跨越人体坐姿的宽度和高度。
所以选择了基于65英寸8K面板、33.1M全彩像素在60赫兹更新的头跟踪自动立体显示器。

视频系统

照明

选择漫射源的原因：
1、这种扩展的光线也比明亮的led直接照明更舒适。
2、完全一致的入射光线使人脸和其他3D形状看起来扁平和人造，阻碍了系统中的其他3D线索。

人脸跟踪

3D人脸追踪的重点在于定位眼睛、嘴巴、耳朵的位置。
眼睛的位置决定了渲染的立体视点，并且在显示的时候我们是需要引导左右视图指向对应的眼睛的。
嘴巴的位置使得音频捕获中的波束形成成为可能。
嘴和耳朵的位置有助于空间化音频渲染和串扰消除
3D人脸追踪的延迟大约是33ms，通过预测跟踪功能缓解延迟，但是又会放大噪声，导致渲染的视点抖动。采用双指数平滑 + 迟滞滤波器解决这个问题。

压缩和传输

对于压缩和传输方面
我们使用的是传统视频压缩传输多幅图像+立体重构的深度图。延迟融合，直到在接受端才渲染出左右眼视图。
颜色数据流和深度数据流使用H265编解码器和 YUV420色度分采样进行编码。
颜色流每个channel使用8位，深度流每个channel10位。
省略双向编码(B)帧来减少编码和解码延迟。
这样就有7个视频流 + 跟踪的人脸点。将这个视频包到一个单一数据负载，使用WebRTC传输。
若传输超时，发送所有7个视频流的内部(I)帧来重新初始化。
最终效果：产生的传输带宽在30~100Mbit/s，这取决于用户衣服中的纹理细节和他们手势的大小