Site Loader

作者为Bo Begole是华为技术媒体实验室的副总裁和全球负责人。

上个月,我提到响应式媒介的时代即将到来,它是一种可以根据消费者的注意力、约定与情境不同而灵活改变内容的媒介渠道。使其成为现实的一些技术基础即将出现和普及(如虚拟现实眼镜、情绪感知算法和多摄像系统),但美中不足的是:响应式媒介所需的带宽太多,互联网带宽数据出口可能会因此奔溃。

我的说法颇具戏剧性,允许我稍作解释。虚拟现实的目标就是针对人所有的感官来生成数字体验,再现眼睛所能见到的每一个光子、耳朵所能听到的每一个小震动,最后到触觉、嗅觉和温度所能感知的每个细节。实现这个目标不是件容易的事,因为人类的大脑的感知系统每秒可以处理近相当于5.2千兆大小数据量的声音和光线——200倍于美国联邦通信委员会预测的未来宽带网络速度要求(25M)。再让我解释一下5.2千兆这个庞大数字的来由(如果你相信我所说的,可以跳过这部分内容)。

眼球的中央凹可以检测0.3角分度大小的细粒,即是在中央凹视场范围内,可以识别约200个细粒。转换成屏幕像素大约为200像素。保持头部不动,瞬息间(少于100毫秒)眼睛至少可在水平面上转动150°,在垂直面上转动120°。也就是30000水平像素乘以24000垂直像素,意味人眼一次获取的画面信息需要全方位覆盖7.2亿像素。最后加上头部和身体360°水平转动和180°垂直转动,将超过25亿(千兆)像素。

这只是就静态图像而言,但世界并非是静止不动的。视频是由多张静态图像在瞬间内的连续显示组成的,电视/电影往往是每秒30张图片。每秒30帧的速度对中速电影/电视节目而言绰绰有余,但人类的眼睛无法像相机那样捕捉事物。事实上,眼睛不断接受光刺激,人类的眼睛能够捕捉更快速的动作。据计算,人眼球的捕捉速度高达每秒150帧。对于体育运动、游戏、科幻和其他沉浸式体验,达到60甚至是120帧每秒的视频是预防“动态模糊”和定向混乱的必需条件。

用最保守的估计,除却头部和身体转动,两只眼睛可以接受7.2亿像素,60帧每秒,每个像素36位色彩,一共就是3.1万亿位!如果按当今的压缩标准可减小300倍,即使未来可以达到600倍(未来视频压缩标准),意味着我们仍需要每秒5.2千兆的网络吞吐量,甚至更多。

5.2千兆只是理论上限。相机快速和显示屏尚未达到30K分辨率。我们期望8K分辨率相机能在今年问世。

在上个月我提到过几个360°全景摄像系统,至少包含16台超外放置相机。4K分辨率、30帧每秒、24位每像素和使用300:1的压缩比率,这些装置每秒能生成300兆比特图像。这些要求至少是制作高质量4K电影体验的10倍。

Post Author: admin

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注