首页  技术文章  全息以及三维显示的未来

全息以及三维显示的未来

发布时间:2022-04-07 11:49:14 浏览量:2599 作者:LY.Young 光学前沿

摘要

全息术的先驱,Gabor、Leith、Upatnieks和Denisyuk很早就预测了三维显示的终极技术是全息。这个信念的基础是:全息是可以渲染(render)所有能被人类视觉系统解释的光学线索(cue)的唯一途径。全息三维显示已经被人们追逐许多年了,其依然面临所有方面的挑战:计算、传输和渲染。用数字来描述,如6.6x10^15浮点运算计算要求,3x10^15b/s数据率,1.6x10^12phase pixels,任务相当艰巨。根据以往的经验推算,如果以以往的速度发展,需要到2100年方可实现真正的全息显示。

正文


全息以及三维显示的未来


写作背

全息术的先驱,Gabor、Leith、Upatnieks和Denisyuk很早就预测了三维显示的终极技术是全息。这个信念的基础是:全息是可以渲染(render)所有能被人类视觉系统解释的光学线索(cue)的唯一途径。全息三维显示已经被人们追逐许多年了,其依然面临所有方面的挑战:计算、传输和渲染。用数字来描述,如6.6x10^15浮点运算计算要求,3x10^15b/s数据率,1.6x10^12phase pixels,任务相当艰巨。根据以往的经验推算,如果以以往的速度发展,需要到2100年方可实现真正的全息显示。


图1、全息阶梯:各种电信设备推出年份和近似比特率幅度图


美国亚利桑那大学的Pierre-Alexandre Blanche撰写综述文章"Holography, and the future of 3D dISPlay",回顾了全息三维显示领域的最新成果。


三维人类视觉和三维显示:
理解人类的视觉系统及其如何感知三维是开发三维显示系统的关键所在。人类视觉系统接收许多不同的线索来确定深度感知,大多数这些线索源自二维场景。这些线索是:阴影(shading)、影子(shadowing)、透视(perspective)、相对大小(relative size)、遮挡(occlusion)、模糊(blurriness)和雾度(haze)。如图2,三个简单的圆盘,因为包含了上述的部分二维视觉线索,从而产生了三维的效果。


图2、一些影响深度感知的 二维视觉线索的示例


对于三维显示系统,必须首先包含上述几种二维线索,然后再加上额外的三维线索,这些是:立体视差(stereo disparity)、运动视差(motion parallax)、调节(accommodation)。

1)立体视差(Stereo Disparity)

立体视差是左右眼观察到场景的视差变化,它是最容易实现的三维线索。通常通过让人们佩戴眼镜,左右眼接收到的图像分别被彩色或正交偏振或交替快门编码,使得左右眼观察到不同的视角(view),从而产生立体效果。商业上已经在影院等特殊场所得到应用,但是在日常生活中并没有被人们广泛接受。


2)裸眼3D(Autostereoscopy)

裸眼3D不需要借助特殊的眼镜就可以实现立体视觉。凭借视差障壁(parallax barriers)或微透镜阵列,让左右眼接收不同的视角,从而产生立体视觉效果。但是这种技术需要观察者站在一个特定的位置,这限制了它的使用。当然,通过自动人眼追踪技术可以缓解对观察者位置的限制要求,但是这种技术还没有普及开来。


3)运动视差(Motion Parallax)

运动视差需要投影许多个视图,这样,即使观察者在显示器前移动也能够看到正确的视差(parallax)。不同视角的被投影密度需要确保能够产生正确的立体信息,因此,每个瞳孔间距至少需要两个视角。然而,为了实现从一个视角到另一个视角的平滑过渡,需要更大的视角密度。最佳视角密度取决于显示器的确切配置和预期的观察者距离,但数量大约为每度一个视角的量级。

在大多数文献中,再现运动视差的显示器被称为多视角(multiview或multi-view)显示器,而光场(light-field)显示器基于射线光学(ray-optics)和积分成像(integral imaging)的概念来重建三维图像。在多视角显示器中,显示器被设计成当观察者的位置改变时可以平滑地再现运动视差。这被认为是一种多视角类型裸眼3D显示器。但是,当显示器还能够重建虚像实像时,通常称其为光场显示器。

一个多视角或光场显示器,以2160p(4K)横向分辨率显示再现具有±45°视场角的运动视差时,比特率量级为12.7x90^2=10^5Gb/s,平方是同时考虑了垂直和水平视差。由于人类视觉系统主要涉及水平瞳孔间距,并且横向运动比垂直运动更受青睐,因此水平视差比垂直视差更重要。为了得到12.7x90=10^3Gb/s这样更低的数据速率,垂直视差通常在多视角显示器中被丢弃。

当观察者在多视角显示器前保持不动时,观察到的视差提供类似于裸眼3D显示器的体验。然而,由于视角的数量要多得多,光场显示器不像裸眼3D那样受有限视域的限制,因此,用户体验要好得多。

考虑到多视角和光场显示器在某种程度上可实现的数据速率和相对于裸眼3D的优势,它们目前是被深入研究的技术,并且无疑将是市场上的下一代三维显示平台(现在已有一些专门的应用程序出现)。


4)视觉辐辏冲突(vergence-accommodation conflict)

视觉辐辏冲突是我们迄今为止介绍的所有显示系统的致命弱点(光场显示有些例外),当不匹配的视觉三维线索呈现给观察者的时候就会出现。发生视觉辐辏冲突是因为这些显示器投影的图像位于固定距离处,因此产生了无法调整的恒定accommodation cue, 聚散是由视差提供的,可能会在一个场景内发生变化。accommodation cue和vergence cue之间的差异,会引起感知上的冲突,这种冲突导致视觉上的不适。

当光场密度足够大的时候,光场显示器可以再现一定程度的accommodation。这种情况通常被称为超多视角。accommodation发生在光场显示中,因为图像平面可以移入和移出显示器平面,这是通过将来自显示器平面不同部分的光线导向一个体素来实现的(如图3a)。然而,有人认为,如果在光场现实中视角密度不断增大,则可以随意延长accommodation距离。这种信念源自光场显示通过使用线段(line segments)近似一个波前曲率的推断。如果这些线段足够小,它们可能与真实的波前曲率无法区分。不幸的是,因为沿着像素边缘发生衍射,限制了体素分辨率,使得这种光线追迹简化不会发生。即使像素密度为每度100s,当物体投影离光场显示显示器平面太远时,由于像素之间的衍射,它也会变得模糊。这种衍射效应无法避免,并且本质上会降低光场显示器的深度分辨率和accommodation。


图3、体素从发射平面投影的图示 a 光场显示,b 全息显示


为了消除较小像素尺寸所经历的衍射现像,像素之间需要很强的相干性,从而使光场显示与全息无法区分。

再现accommodation的难度引起了视觉不适,因此不得不限制显示的景深。为了再现显示器平面之外的体素,光线需要被光学系统聚焦在那个点上。如果不能随意重新聚焦子像素,光场显示器只能从发射平面产生平面波前。如图3a所示,当光场显示器视图再现离发射平面太远的体素时,体素总是变得模糊。

为了解决这个问题,研究人员开发了多平面光场显示器。因为发射平面可以通过光学元件重新聚焦并沿观察深度移动,因此可行。但是,这需要多路复用以在时间上或空间上生成不同的平面,从而增加了系统需要的带宽。还有一个不可忽视的点是,当有很多视区的时候,不同平面之间的遮挡很难控制。


5)体积显示(volumetric displays)

体积显示有位于三维空间中的体素,并且同样需要面对遮挡问题。遮挡只能在一个视点正确再现。使用眼球追踪机制,通过重新计算遮挡并且呈现正确的图像给观察者,这可以应对一个观察者的场景,但是不适于多个观察者。

在体积显示中,遮挡问题产生是由于体素是全方位发射的,并且没有吸收体素。尽管如此,体积显示的优势在于它能够在不损失分辨率的情况下再现景深。当它不使用屏幕来显示图像时,观看会显得更自然。在这种情况下,图像似乎漂浮在空气中,这对观察者的感知产生了戏剧性的影响。

体积显示器还具有不能将图像投影到有限体积之外的缺点。图像深度受该体积的限制,并且无法再现看似超出显示器的深度景观或物体。

4K体积显示器的数据速率:

x×y×z×rep.rate×res.×colors=4096×2160×1000×60×8×3=1.3×10^13b/s。

因为体积显示器易于拓展,因此可以轻松使用较低分辨率的系统来展示该技术的潜力。


全息三维显示:
静态全息图已经被证明可以重建人类视觉系统理解三维所需的所有线索,并且依靠高质量的光敏材料,目前已经可以显示可信的全彩全息重建。但是现在的问题是,怎样让动态全息也具有静态全息的图像质量。

要创造一个全息电视,需要解决三个基本的问题:从三维信息计算全息图,数据的传输,全息图到三维图像显示的重建。

1)计算生成全息图

从三维图像计算衍射图案的理论基础是基尔霍夫和菲涅尔衍射积分物理模型。但是由于计算所需的浮点数过大,到目前为止还无法做到实时生成。以720p(1280x720)全息显示为例,蛮力计算需要每像素100x100个衍射元素以获得全视差,以及每像素需要4000次乘法和累加,刷新率为60Hz,全彩三色显示有1280x720x100x100x4000x3x60=6.6petaflops。因此必须对计算全息的方式进行简化。

用弗朗和费积分(即傅里叶变换,可用FFT算法完成)取代菲涅尔积分是最简化的版本,但是傅里叶全息图只有一个像平面,因此这种简化牺牲了图像深度信息,不适合三维显示。

还值得注意的一点是,傅里叶变换产生了实数和虚数解。这两个分量对应着全息图的幅度和相位。大多数的时候,显示衍射图案的器件只能够重建两者之一。这意味着从单个傅里叶变换的结果重建图像的时候,会附带大量的噪声。全息图另外的噪声来源还有phase levels的量化误差、像素结构中的衍射、随机相位引起的散斑等。

提高图像信噪比的方法有GS这样的迭代方法,但是GS法只适用于二维输入图像。通过为不同的离散平面单独计算全息图可以获得一些图像的深度信息,这种解决方案可以同时render vergence和accommodation。但是由于不同图像平面的全息图是独立计算,而不是作为一个三维整体场景,因此无法避开遮挡的问题。目前,已经开发了一些新的算法来解决遮挡问题。

对于三维显示,可以直接基于三维模型来计算全息图。用于这种场合的算法可以归为两类:基于波前的方法(wavefront-based methods),基于光线的方法(ray-based methods)。

对于基于光线的方法,全息图从三维场景以非相干的方式采集多个二维图像平面计算得来,并依赖于光的几何传播形式。其可以分为两类:全息立体图(holographic stereogram, HS)和多视点投影(multiple viewpoint projection, MVP)。HS和MVP的计算速度很快,可以呈现逼真的图像。但是由于没有考虑物体的整个波前,在呈现某些三维光学线索的时候会存在困难。HS由于不同的视角以非相干的形式结合,其景深有限。MVP法需要采集或渲染大量的图像,这些图像设计相机位置的小增量,否则,运动视差会发生跳动(jumpy),并且无法很好地表示遮挡。从某种意义上来讲,HS和MVP全息图是介于光场显示和全息显示之间的混合体。

基于波前传播的方法计算光波传播考虑从点光源开始照射由点云或多边形表示的物体。计算生成全息图通过仿真从物体和参考光发生干涉计算得来。它的优势在于天然考虑了遮挡和视差线索,因此渲染准确。但代价是计算量巨大。将CGH的一些计算预先存储在查找表中可以降低计算的要求。通过在专门构建的硬件加速器上执行计算也可以加快计算的时间。尽管计算机全息领域已经取得了很大的进展,但是从最近的文献来看,使用基于波前的算法计算的三维图像的质量仍然很难令人信服(见图4)。这也证明了要再现完整详细的全息图像是多么的困难。


图4、文献中基于波前的计算机生成全息图的光学重建示例


在许多情况下,使用基于波前的方法计算的全息图像缺乏纹理(见图4(2))。这是因为纹理的渲染需要考虑到材料表面最精细的细节,而计算机还无法达到这种层次的细节。

机器学习、神经网络和人工智能技术已经成功应用于全息图的计算,但目前其大多数情况下只适用于二维图像,预计很快会扩展到三维图像。


2)全息图的传输

为全息显示采集的图像可以满足人眼的最低要求,并且不必像静态全息图那样使用相干照明和解析纳米级干涉条纹
为了适应人眼accommodation,要再现的三维信息可以仅具有几厘米的深度分辨率,而不是全息所能达到的纳米级分辨率。这样的图像甚至可以像现代视频游戏那样,压缩成覆盖有纹理图案的三维网格模型。视频游戏将这些信息与虚拟摄像机的位置一起处理以显示二维图像。同样,如果显示需要,游戏引擎可以显示三维图像(如可以使用立体VR headset调整和播放视频游戏)。
实际上,要传输到显示系统的数据量并不大,并且当今的技术很容易就能应对。然而,对于三维图像,其全息图的计算极大地增加了信息量(因为衍射图案不能够缩放到适应人眼的横向分辨率(≈1 arcminute或0.3mrad),而是必须根据可见光的波长(≈500nm)来确定尺寸)。通过比较图1中体积显示(≈10^13b/s)和全息显示(≈10^15b/s)的数据速率可以很好的理解这种放缩的作用。
由于数据大小这样的增加,可以想到传输三维图像/模型要比全息图案更高效。在这种情况下,全息图的计算应该在客户端(接收器)执行。因为计算在本地进行以降低长距离传输介质的负担,故将这种模型称为"thick client",这也意味着本地站点需要强大的计算能力来支持这种解码。
或者,可以使用远程服务器bank来快速有效地计算全息图。在这种配置中,接收端只需要一个处理能力有限的"lean client",其作用是处理本地传输以供显示。在这种情况下,几乎全部数据量(10^14b/s)将需要由服务器通过"fat pipe"网络传输到客户端。

图5是一个全息图的传输和重建模型,每个阶段所需的不同量级的计算和数据速率都有展示。


图5、全息电视传输过程示意图。thick client和lean client架构之间的比较


我们已经熟悉lean client/fat pipe这样的架构用于手机和云计算。为了支持全息,整个传输网络将不得不更新至能支持数据流10^6的增长(见图1,从HDTV到全息)。考虑到我们在过去20年中已经经历了五代手机网络,这种增长并非没有道理。

由于目前还没有三维全息图像和电影传输的需求,因此,thick和lean client模型之间的对比优势还不清楚。但值得注意的,用于全息图存储和传输的压缩算法不如自然图像所用的压缩算法有效(如JPEG和MPEG)。这是基于破坏图案应有的光的干涉效应会导致衍射图案分辨率的下降,从而破坏全息图像。因此,衍射图案需要使用接近无损的算法进行压缩。

关于全息图传输的另一个重点是干涉图的计算与显示架构关联。为了正确再现全息图,干涉图的计算必须考虑显示是全视差还是仅在水平视差下运作、确切的照明波长,以及像素密度如何等(以及其它参数)。同样地,传统显示,如二维电视,立体影像(stereoscope)、裸眼3D和体积显示等也必须考虑在内


3)全息显示装置 时空积(holographic display setups spatio-temporal product)
成像设备中有一个时空积(spatio-temporal product, STP)的概念,它是像素数和刷新率的乘积。刷新率的引入之所以重要,是因为时域复用机制可以用来提高显示分辨率(全息或非全息)。由图1所示,全息显示的比特率在3x10^15b/s级,其显示设备的STP也应该具有相同的数量级。
通过多个空间光调制(SLM)的拼接实现大型全息显示在技术上是可行的。假设使用适用于二维成像的4K SLM,其比特率为12.7Gb/s,需要230000个SLM才能达到3x10^15b/s,并且需要15000台个人计算机来操作这些屏幕。这些数字说明了当前想要实现全息显示是多么困难,但已经有研究表明这种方法可行(是小规模验证)。
只再现水平视差并且垂直扫描图像可以减少STP。与全视差相比,水平视差将STP降低了10^3倍,除此之外,水平视差不需要保持构成三维图像的不同水平线之间的coherence。因为人眼视差(eye disparity)主要是水平的,水平视差全息图在垂直视差上的损失并不会严重影响三维感知。但是,这可能会引入一些其它的伪影,如像散或者需要观察者站在特定距离观看。尽管存在这些问题,许多研究人员还是利用水平视差提供的STP减少来演示全息投影。

降低全息系统STP的另一种可能方法是限制全息图投影的eye box。使用这种技术,光线通过眼球追踪系统或头戴式显示器直接射向观察者。知道观察者的位置可以极大地减少全息图的计算量,因为这只需要考虑有限数量的视点。同样的,如果观察者站在预定区域内,全息图的角度范围(其衍射角)可以变窄,衍射像素数可以减少。这种技术的优点是不牺牲图像质量或三维线索。


4)空间光调制器和相位阵列器件

硅基液晶(LCoS)SLM可以用于显示衍射图案。它的优点在于像元尺寸可小至数微米,衍射角可达10°;大像素数,可以生成高分辨率全息图;可以调制相位,相位分辨率有8bit,具有高的衍射效率。缺点在于液晶的粘弹性将LCoS的刷新速度限制在几毫秒,这个速度用于成像足够了,但最终限制了LCoS SLM在全息应用方面的STP。

MEMS由微反射镜组成,可以通过倾斜或移动微反射镜来与光交互。其刷新率远高于LCoS,并且像素数和像元尺寸与LCoS相似,因此可提高STP,减小创建全息显示所需要的单元数量。

早期的MEMS有索尼开发的micro-ribbons,用于构建衍射光调制器。该技术开关速度达20ns,然而micro-ribbons是一维的,需要扫描来形成二维图像。大约在同一时间,德州仪器试验了一种相位调制,可以通过上下移动像素来调制相位。不幸的是,这种MEMS调制器并未商业化。德州仪器押宝的最受欢迎的MEMS之一是数字光处理器(DLP)。

DLP基于DMD开发而来,本来是用于成像目的,如投影仪和电视等。但是,当用于全息的时候,DLP最多只能以10%的效率显示幅度全息图。尽管如此,DLP 的STP可达47.7G像素/s(1920x1080分辨率,刷新率23kHz),有的芯片的像素数可以支持4K(3840x2160),但是刷新率只有60Hz,STP降至0.5G像素/s。

最近,德州仪器又恢复了其早期在相位调制器方面的尝试,正在开发一种能够实现更高效率的活塞式MEMS。这种相位光调制器(PLM)在全息三维显示系统的开发中应该非常有用。如果PLM能够像某些DLP那样以20kHz的频率运行,那么与典型的LCoS SLM相比,它的STP能提高100倍。

另外一种可以使用低效率器件增加全息图强度的方法是使用可刷新的全息材料。可刷新材料,如光折变聚合物(phtorefractive polymers),可以记录由SLM生成的波前,并凭借其高衍射效率方法全息图的强度。目前在视频速率全息投影以及大型全息显示上已经用这种类型材料做过一些成功案例。需要注意的一点是,这些材料依赖像SLM、DLP等电子可寻址设备(electronically addressable device)来显示初始的全息图案。

考虑到STP是解锁实用全息三维显示的关键所在,声光材料(acoustic-optic material, AOM)是一种不错的选择。对于AOM,声波的传播会产生密度调制使光衍射。如果声波被正确编程,衍射光可以形成全息图像。在其波导形式中,声光调制允许光和生成声波有更长的相互作用长度,从而进一步提高STP。单个leaky声光波导可以具有每种颜色50MHz的可用带宽,对应于30Hz时1.67M像素。通过在单个晶体上制造多个波导通道,可以轻易达到50G像素/s的STP。AOM最初只演示了水平视差,但是使用单个激光源馈送不同的波导并控制相位以实现水平和垂直相干光束转向在理论上是可行的。

另一种高STP器件是相控阵光子集成电路(phased array photonic integrated circuit, PIC)。在这种方法中,纳米光子相控阵是通过在光子晶片上记录分支波导来构建的(见图6)。这些波导将从单个源投射的光分布在二维网格上。每个波导末端的相位可以通过电光或热光相位调节器进行调节。通过终止每个波导的光栅输出耦合器从晶片正交抽取光。类似于相控阵雷达,光栅输出耦合器也被称为光学天线。


图6、光子集成电路光学相控阵示意图。单个相干激光源被引导到波导内,光被多个光栅耦合器(充当光天线)提取。可以使用相位调制器调整每个天线的相位以创建全息图


PIC相控阵技术的优势在于相位调制的频率非常高。电光调制可达一百GHz。这本质上将数据速率提升到10^10b/s级。使用具有300x300天线的阵列,可以达到全息显示所需的10^15b/s。光子相控阵目前的难点在于晶片(wafer)材料、天线之间的间隙、天线之间的相位精度。

PIC的首选材料是硅,它不透射可见光。其它在可见光波段有更佳透射性能的材料应该用于显示目的。已有一些文献探索了用于光学相控阵的氮化硅或二氧化硅平台,但还处于实验阶段。
相控阵的填充因子只有25%,而MEMS和LCoS的高于90%。由于存在旁瓣发射,因此填充因子会影响衍射效率(如果天线相隔太远,则这种效应无法消除)。天线的分离是由于波导的转弯半径有限以及波导元件之间需要分离以避免交叉耦合。转弯半径和波导间距这两个因素都由波导内部和外部之间的折射率差决定。更大的折射率差将允许更大的填充因子。
LCoS中像素的相位控制优于MEMS和相控阵。LCoS相位是模拟的并且与施加的电压成正比,因此在像素之间是均匀的。相比之下,当前的MEMS微反射镜的相位级是离散的,仅限于4bits,并表现出一些非线性。对于相控阵,相位控制是模拟的和准确的,但由于制造不一致,必须对每个元件进行单独表征。

参考文献:Pierre-Alexandre Blanche. Holography, and the future of 3D display[J]. Light: Advanced Manufacturing.
DOI:https://doi.org/10.37188/lam.2021.028


关于昊量光电:

上海昊量光电设备有限公司是国内知名光电产品专业代理商,代理品牌均处于相关领域的发展前沿;产品包括各类激光器、光电调制器、光学测量设备、精密光学元件等,涉及应用领域涵盖了材料加工、光通讯、生物医疗、科学研究、国防及更细分的前沿市场如量子光学、生物显微、物联传感、精密加工、先进激光制造等;可为客户提供完整的设备安装,培训,硬件开发,软件开发,系统集成等优质服务。


您可以通过昊量光电的官方网站www.auniontech.com了解更多的产品信息,或直接来电咨询4006-888-532。


本文章经光学前沿授权转载,商业转载请联系获得授权。