首页  技术文章  博览:2020 CVPR 用于单帧高动态范围成像的深度光学

博览:2020 CVPR 用于单帧高动态范围成像的深度光学

发布时间:2022-04-07 11:54:49 浏览量:1762 作者:LY.Young 光学前沿

摘要

高动态范围(High dynamic range,HDR)成像是使用最为广泛的计算摄影(computational photography)技术之一。它具有许多的应用,如基于图像的照明(image-based lighting)、HDR显示、图像处理等。然而,相机图像传感器的动态范围从根本上受限于其像素的满阱容量。当产生的光电子数量超过满阱容量时(通常是在对具有高对比度的场景进行成像时),强度信息会因饱和而不可逆转地丢失。不断缩小的像素尺寸,例如在手机应用中,会加剧这个问题,因为满阱容量与像素尺寸成正比。

正文


博览:2020 CVPR 用于单帧高动态范围成像的深度光学


技术背

高动态范围(High dynamic range,HDR)成像是使用最为广泛的计算摄影(computational photography)技术之一。它具有许多的应用,如基于图像的照明(image-based lighting)、HDR显示、图像处理等。然而,相机图像传感器的动态范围从根本上受限于其像素的满阱容量。当产生的光电子数量超过满阱容量时(通常是在对具有高对比度的场景进行成像时),强度信息会因饱和而不可逆转地丢失。不断缩小的像素尺寸,例如在手机应用中,会加剧这个问题,因为满阱容量与像素尺寸成正比。

目前已经开发了几种不同的策略来克服可用图像传感器的有限动态范围。一类技术使用固定或变化的曝光设置捕获多个低动态范围 (low dynamic range,LDR) 图像。不幸的是,这种方法不适合捕捉动态场景。另一类技术使用多个光学对齐的传感器同时捕获同一个场景,但对于此类专用相机,校准、成本和设备外形因素是必须考虑的,且此法实际使用时不一定总是可行。单次采集是一种有吸引力的解决方案,但通常需要在图像传感器上采取自定义曝光模式来实现多路复用。最近,还提出了从单个饱和LDR图像产生幻觉(hallucinate)HDR图像(如HDR-CNN)。


当前不足:

虽然HDR-CNN在许多情况下都取得了成功,但饱和的场景细节往往无法通过幻觉忠实地恢复。


文章创新点:

基于此,美国斯坦福大学的Christopher A. Metzler和Gordon Wetzstein等人提出一种光学编码、计算解码,编码器和解码器都以端到端方式训练,实现单帧HDR成像的方法。不同于传统的HDR-CNN,本文的方法通过具有优化点扩散函数(PSF)的光学滤波将最亮像素值的信息编码到附近像素中来保留饱和像素值的信息。使用光学滤波器对HDR像素信息进行编码,并转向机器学习来自动设计光学元件和端到端的重建算法,从而最大化从HDR场景传递到低动态范围的信息(LDR)测量。

文章通过大量的模拟,证明深度光学通常比替代的单次HDR成像方法获得更好的结果。因为与HDR-CNN方法相比,优化的PSF具有更大的自由度来编码图像传感器图像中的场景信息,并且与其它光学编码技术相比,这里使用与重建算法联合优化的光学元件 ,而不是启发式选择。且制造出的光学元件可以作为附件直接安装在现有的光学镜头上。


原理解析(数学原理见附录,对公式恐惧可忽略):

成像过程可以看作成像系统点扩散函数h与成像目标x的卷积加上系统的噪声η,经相机响应f后成一个像y。文章的目标是通过联合优化点扩散函数和重建算法,从而能够从y恢复x。

(1) 光学点扩散函数建模。光学系统由普通单反镜头前端附加一个需要联合优化而来的衍射光学元件(diffractive optical element,DOE )组成。点扩散函数形成的物理机制可以建模为:点物从无穷远处以平面波形式入射进光学系统,经DOE相位调制、自由空间传播、单反镜头相位调制、自由空间传播、在相机上产生点物的强度分布,即点扩散函数h。


(2) 基于CNN的图像重建。使用U-net架构从测得的y恢复x。具体来说,U-net使用跳跃连接并且有5个尺度,每个尺度有4个连续的下采样操作(maxpool)和4个连续的上采样操作。在U-Net 的每个尺度上,都包含一个额外的卷积层;每个卷积层后跟一个修正线性单元(ReLU)。BatchNorm层在每个上采样层之后和最终卷积层之后使用。这种架构可以让镜头表面轮廓的收敛速度更快。如图1所示,每个网络层有 64 个特征图。 


(3)端到端训练。通过如图1的端到端框架联合优化点扩散函数(PSF)和U-Net CNN。训练的时候使用数千张HDR图片用于训练。简单而言,一张HDR图片经光学系统传输,相机采集到具有噪声且饱和了的LDR图像,使用U-net重建HDR图像。在训练过程中使用Tensorflow的自动微分功能计算相应的损失函数来后向(BP)传输误差,并更新网络参数θ和需要加工的DOE的面型。训练和验证集包含了2837张HDR图片(来源不尽相同),对这些数据使用裁剪、放缩、颜色和饱和度调整来做数据增强。最终的训练集为60000张不同的HDR图片,分辨率为320 x 320像素。LDR/HDR图像对的生成是这样的,对经过光学模型采集到的图片让其1%到2%的像素饱和,生成LDR图。优化器为Adam,用100个epcochs训练,耗时3天。

(4)制造和集成。优化完成后,可以得到DOE的面型参数,通过复制成形(replica molding)使用聚二甲基硅氧烷(polydimenthyl-siloxane,PDMS)制造DOE.图2描述了优化的高度轮廓以及利用轮廓仪测量加工出的直径为5mm的DOE中心轮廓。两者轮廓基本吻合。真实测量的PSF相比仿真PSF的差异来源于额外的眩光,这可能是由于制造误差和透镜元件之间的相互反射产生的。最后将制造出的DOE作为一个附件安装到标准的单反相机镜头上。


限制概述

所提出的通过深度光学进行单次HDR成像的方法在许多情况下都是成功的。然而,它使计算处理成为成像的一个组成部分,与传统的LDR成像相比,这可能会增加计算负担。与其它单次拍摄方法类似,此文的方法可能无法稳健地估计测量中非常大的饱和区域的高对比度场景


实验结果


附录:

(1)场景经成像系统成像可以描述为

,x里的所有元素做归一化处理。η模拟与信号有关的读取噪声,h是相机镜头产生的点扩散函数,*代表二维卷积,f(·)是相机的响应函数。在这里认为h是平移不变的,但是更普遍的随着横向和纵向变化的点扩散函数也是可以采用的。

假设相机有一个线性的响应函数,

优化目标为,当时,从y恢复x。


(2)入射到DOE上的平面波描述为,k为波矢。DOE面型Φ产生的相位调制为

(u,v)是DOE面的横坐标,A代表DOE的孔径函数

镜头产生的相位延迟为

g是镜头的焦距。最终相机接收到的强度为

表示光场u在距离为d的空间中自由传播。


(3)网络的损失函数为

γ=1/2,ε是一个用于避免在0附近不可微的小常数。

为了确保DOE能被加工出来,在训练的过程中将面型的高度值的范围最大化,并对面型增加一个额外的平滑项以防止生成的表面轮廓包含了许多不连续的点。具体表现为增加一个损失函数

D是Laplacian filter,ν = 109是权重参数。


参考文献:Metzler, C., Ikoma, H., Peng, Y., Wetzstein, G., Deep Optics for Single-shot High-dynamic-range Imaging, CVPR 2020 链接:https://arxiv.org/pdf/1908.00620.pdf



关于昊量光电:

上海昊量光电设备有限公司是国内知名光电产品专业代理商,代理品牌均处于相关领域的发展前沿;产品包括各类激光器、光电调制器、光学测量设备、精密光学元件等,涉及应用领域涵盖了材料加工、光通讯、生物医疗、科学研究、国防及更细分的前沿市场如量子光学、生物显微、物联传感、精密加工、先进激光制造等;可为客户提供完整的设备安装,培训,硬件开发,软件开发,系统集成等优质服务。


您可以通过昊量光电的官方网站www.auniontech.com了解更多的产品信息,或直接来电咨询4006-888-532。


本文章经光学前沿授权转载,商业转载请联系获得授权。