摘要:光场图像分辨率低的原因之一是光场空间分辨率和角度分辨率之间存在相互制约。光场超分辨率技术旨在从低分辨率光场图像中重建出高分辨率光场图像。基于深度学习的光场超分辨率方法通过学习高、低分辨率光场图像之间的映射关系来提升图像的质量,突破了传统方法计算成本高、操作复杂的限制。本文对近年来基于深度学习的光场超分辨率技术研究进展进行了全面综述,梳理了网络框架和典型算法,并进行了实验对比分析。最后,总结了光场超分辨率领域面临的挑战,并展望了未来可能的发展方向。
关键词:光场;图像超分辨;图像修复;深度学习
1 引言
光场超分辨率(LightFieldSuperResolution,LFSR)目的是从低分辨率光场图像中重建出相应的高分辨率光场图像。光场相机通过在主透镜和成像平面之间加入微透镜阵列的设计,可同时记录光线的空间信息和角度信息,能更形象地表示真实世界。使得光场图像在重聚焦[1]、深度估计[2]、虚拟现实[3]和3D重建[4]等领域都有广泛应用。然而,也正是由于光场相机的硬件设计导致了光场空间分辨率与角度分辨率之间存在相互制约的问题,使获取的光场图像分辨率较低,限制了光场图像在实际中的应用。
研究者们利用两种方法来解决光场图像分辨率低的问题。一种是通过改善光学系统,直接在硬件层面提升成像分辨率[5-6],但硬件成本高昂,不利于在实际应用中拓展。另一种方法是利用各类LFSR算法来重建光场图像分辨率。根据对光场空间和角度信息的利用,现有的LFSR算法主要可以分为光场空间超分辨率(LightFieldSpatialSuperResolution,LFSSR)、光场角度超分辨率(LightFieldAngularSuperResolution,LFASR)、光场空间-角度超分辨率(LightFieldSpatial-AngularSuperResolution,LFSASR)三类。这三类算法中包含基于几何投影、基于优化以及基于深度学习的方法。基于几何投影的方法[7-8]依赖于光场相机的成像原理,利用子孔径图像(Sub-apertureImage,SAI)不同视图之间丰富的亚像素信息来超分辨目标视图。Lim等人[7]提出2D子孔径图像在空间维度上存在亚像素偏移,将其投影到凸集上可以增强图像的空间分辨率。Nava等人[8]利用重聚焦原理,将其他视图的像素投影到中心视图,来得到当前场景的全聚焦图像。基于优化的方法[9-12]在不同的优化框架下进行超分辨,并用不同 的数学模型来分析先验。2012年,Mitra等人[9]提出一种基于patch的高斯混合模型对光场结构进行编码,利用光场的视差信息来设计patch先验。为光场去噪,光场空间、角度超分辨等任务提供了一个通用的框架。2014年,Wanner[10]等人设计一个连续的框架来 分析4D光场,描述了视差重建以及空间和角度超分辨率的新变分方法,并使用凸优化算法加快了网络的重建速度。2018年,Alain等人[11]将单图像超分辨 率(singleimagesuperresolution,SISR)滤波器BM3D[12]扩展到光场去噪滤波器LFBM5D,将两者 相结合用于LFSSR中。基于优化的方法虽然可以对光场结构进行编码,但是手工制作图像先验的表示能力较差。上述两种传统方法存在操作复杂、重建质量不佳等问题。基于深度学习的LFSR方法通过学习低分辨光场图像与高分辨光场图像之间的映射关系,来充分的利用光场的空间信息和角度信息,在性能上得到较大的突破。近年来,大量基于深度学习的LFSR方法被提出,但目前没有相关的综述文章。本文针对近几年基于深度学习的LFSR算法进行了全面的综述,以期为LFSR领域的初学者提供参考。
文章余下部分组织如下:第2节阐述光场的基本理论。第3节详细梳理了LFSSR、LFASR和LFSASR三类算法。第4节介绍了LFSR常用数据集和评价指标。第5节对上述三类典型算法进行了定量和定性分析。第6节总结了LFSR领域面临的挑战,并展望其未来研究方向。第7节对全文进行了总结。
2 光场
光场概念最早是在1936年被Greshun[13]提出。1981年Moon[14]提出―PhoticField‖的概念后,光场技术才开始被研究者关注。1991年Adelson[15]提出用7D全光函数来表示光场,如公式(1)所示:
F7D=L(x,y,z,θ,Q,λ,t)(1)
其中(x,y,z)为光线位置,(θ,Φ)为角度、(λ)为波长、(t)为时间,F7D表示7D全光光函数。由于7D全光函数计算处理比较困难,Bishop[16]假设光线的波长不变,且场景不随时间变化,将7D全光函数简化为5D函数,如公式(2)所示:
F5D=L(x,y,z,θ,Q)(2)
其中(x,y,z)为光线的位置坐标,(θ,Φ)为角度方向,F5D为5D全光函数。然而5D函数存在冗余,且使重建函数变得复杂。如图1所示,1996年Levoy[17]假设两个平行的平面,如果一条光线与这两个平面各有一个交点,则可以用这两个交点唯一的表示光线,提出了4D光场表示,表示为公式(3):
F4D=L(u,v,s,t)(3)
其中(s,t)和(u,v)表示光线在空间平面p1和角度平面p2上的交点,F4D为4D函数。
光场的采集最初是使用昂贵且体积庞大的相机阵列。随后基于微透镜阵列的手持光场相机[18]和面向工业应用的全光学聚焦型光场相机[19],以及基于多焦距微透镜的[20]、基于掩膜的[21]和基于多传感器捕获[22]的光场相机逐渐被提出,使得光场的采集更便捷、更高效。4D光场的采集通常运用2D传感器实现,所以光场的可视化也通过2D图像集合的方法来表示。不同的采集方式,其可视化形式也不同,如图2所示,为光场的子孔径图像可视化表示。更多光场的表示模型,可参考李亚宁等人[23]的文献。
3 光场超分辨率方法
本节详细分析了LFSSR、LFASR以及LFSASR三类基于深度学习的LFSR技术研究成果。
3.1基于深度学习的LFSSR方法
LFSSR也称为光场图像超分辨率,目的是从输入的低分辨光场图像中重建出对应的高分辨率光场图像,提升光场图像的空间分辨率。如图3所示,LFSSR方法主要利用光场的空间信息来重建光场图像分辨率,其中角度信息作为辅助(图3中虚线)。
3.1.1基于CNN的LFSSR
随着卷积神经网络[24](ConvolutionalNeuralNetworks,CNN)在计算机视觉领域得到了广泛应用。2014年Dong等人[25]首次将CNN用于SISR中,提出了SRCNN。2015年,Yoon等人[26]首次将CNN用于LFSR领域,提出的LFCNN首先对光场相邻子孔径图像的空间特征进行超分辨,再利用相邻高分辨率SAI对角度特征进行超分辨,使LFSR性能得到了突破。2018年,Yuan等人[27]受SISR方法EDSR[28]的启发对LFCNN进行改进,用EDSR来单独超分辨每个视图,并设计一个极平面图像(EpipolarPlaneImages,EPI)增强网络来恢复SAI的几何一致性,利用EPI保留了光场的一致性信息,提升了超分辨性能。2019年,Zhang等人[29]提出的ResLF利用残差网络来结合输入视图和相邻视图的特征超分辨光场中心视图,以提高光场图像的分辨率。但由于没有利用SAI的所有视图,对光场信息的利用不充分,在有遮挡的场景中存在失真问题。
光场任意两个视图之间都存在视差,而视差的保留也是LFSR任务的一大挑战。2018年,Wang等人[30]提出的LF-DFnet,用可变形卷积来解决空间超分辨的视差问题。该方法在中心视图和每个侧视图之间进行特征级的对齐,能很好的将角度信息编码到每个视图特征中,使网络对光场视差变化更鲁棒。2020年,Jin等人[31]提出all-to-one的方法LF-ATO,通过结构一致性正则化来保持光场的视差结构。2023年,Liu等人[32]提出一种视图交互网络LF-IINet,用两个并行分支分别提取光场的全局和局部视图特征,在结合丰富的角度和空间信息的同时保留了光场的视差结构,超分辨性能得到很大提升。
4D光场数据的表征比较困难,且难以直接从4D光场中获取信息,因此,研究者们将其表示为2D子空间。2021年,Zhang等人[33]提出的MEG-Net以端到端的方式超解析光场图像的所有视图,通过对不同角度的视图进行卷积,探索了不同2D子空间特征,进一步提高了超分辨的性能。为了探索更多2D子空间的特征,Wang等人[34]提出的DistgSSR将光场空间信息解耦为四个不同方向的信息,充分挖掘了光场的空间信息,获得了较好的超分辨性能,同时也将其扩展到了LFASR任务中。2023年,Duong等人[35]利用混合CNN结构来处理不同的2D数据表示,使用三个不同的特征提取器来利用光场空间、角度和EPI三种不同类型的信息,同时保留了光场几何一致性。在2D子空间中执行超分辨,降低了特征提取的难度,但是忽视了对图像自身特征的利用。吕天琪等人[36]提出一种自身特征强化的LFSR网络,应用残差学习来利用视图自身特征。Guo等人[37]考虑到从原始数据转换到RGB图像数据存在信息损失,提出的原始LF数据生成管道,利用原始LF数据中丰富的空间和角度信息,能恢复出光场图像更加精细的细节结构和纹理信息。
由于CNN的局部特性,上述基于CNN的LFSSR方法在图像的局部处理上得到了较好的性能,但是光场的空间-角度相关性没有被完全保留。而且超分辨率任务是一个不适定问题,即一个低分辨输入会对应多个高分辨结果输出。上述基于CNN的LFSSR方法在训练中大多采用最小绝对误差或最小平方误差两种损失,来限制网络的输出为单个超分辨结果,导致了超分辨结果存在失真和模糊等问题。而扩散模型可以将潜在变量从简单分布转换为遵循复杂分布的数据,比较适合解决一对多的映射问题。
3.1.2基于扩散模型的LFSSR方法
为使LFSR输出结果的分布更加接近光场超分辨任务固有的性质,基于扩散模型[38](diffusionmodel)的LFSR方法被提出。2023年,Chao[39]等人首次将扩散模型应用到LFSR中,提出的LFSRDiff将扩散模型与解耦机制[34]结合,充分利用光场的空间和角度信息,提升空间超分辨性能,同时还利用残差连接减小了网络的训练难度。但是该网络规模较大,推理速度较慢,且扩散模型本身的训练难度也较大。
LFSSR从单个或者多个视图、2D子空间、视差等方面来提高图像空间分辨率,取得了先进的性能提升,但由于忽略了对光场角度信息的利用,导致超分辨结果存在模糊、边缘细节丢失等不足。
3.2基于深度学习的LFASR方法
LFASR也叫光场重建或者视图合成,目的是从稀疏采样的光场中重建出密集采样的光场。如图4所示,LFASR方法一般主要利用光场的视图角度信息来重建光场图像,空间信息作为辅助(图4中虚线部分),最后将所有视图进行融合或集成,再对融合后的光场图像进行上采样操作。根据对深度信息的利用,基于深度学习的LFASR方法可分为显式学习深度信息的方法和隐式学习深度信息的方法。
3.2.1显式学习深度信息的LFASR方法
显式学习深度的LFASR方法首先进行深度估计,并利用估计的深度图对输入视图进行扭曲操作以获得新的扭曲视图,再优化扭曲视图得到高分辨图像。
EPI中相邻像素之间的水平距离可以表示视差,而视差有助于估计深度信息。Wu等人[40]提出的shearedEPI,通过评估预移位EPI剪切值来估计场景深度,从EPI中的稀疏视图集重建角度分辨率,在具有挑战性的场景评估上也有较好的性能。2022年,Wang等人[41]设计一个双分支网络分别提取光场的空间-角度信息和深度信息来合成视图,在深度信息的辅助下,能重建出场景中更丰富的细节纹理。Jin等人[42]提出的FS-GAF利用稀疏采样的非结构光场生成任意角度分辨率的密集采样光场,从粗到细的重建方式大大提升了重建质量。由于消费型光场相机捕获的大多都是小基线光场数据,很多光场重建的方法也是聚焦在小基线光场上。2021年,Zhang等人[43]利用微透镜图像堆栈和视图图像堆栈从稀疏采样的光场中重建密集采样光场。在小基线光场数据集上实现了较好的超分辨性能且能够保留光场几何结构。但小基线的方法在面对大基线光场数据时难以得到理想的效果。因此,Jin等人[44]提出一种大基线稀疏采样光场的方法,用两个可学习模块和一个物理模块来分别提取空间、角度信息和深度信息以充分利用光场的几何信息,在节省执行时间的同时保留了光场的视差结构。
显示学习深度信息的LFASR方法,在深度信息的辅助下能够重建场景的细节纹理。但是由于深度估计的质量与光场图像的几何场景联系紧密,在有阴影或者反射区域的场景中会出现深度模糊的问题,从而导致在重建时会引入视觉伪影。且在光场场景中深度不连续的像素区域周围会产生模糊,在有遮挡情况下重建性能会被限制。
3.2.2隐式学习深度信息的LFASR方法
隐式学习深度的LFASR方法是通过隐式地学习深度信息来重建密集采样光场图像。Wu等人认为空间域和角度域之间的信息不对称是稀疏采样光场重建的主要挑战之一,其中角度域的细节部分被下采样破坏,直接上采样或超分辨光场的角度,会导致重影效应。为了平衡空间和角度信息,Wu等人[45]提出的CNN-EPI方法,利用光场EPI中清晰的纹理结构,将稀疏视图的光场重建问题建模为基于CNN的EPI角度细节恢复问题,获得了较好的重建性能。为了抑制直接采样或直接超分辨角度导致的重影,Wu等人[46]提出了―模糊-恢复-去模糊”框架。该方法在有遮挡和透明区域以及非朗伯曲面上都得到了较好的性能,但该框架在每个角度上至少需要采用三个视图进行初始插值,且当卷积核尺寸太大时,非盲去模糊无法恢复高质量的EPI。EPI作为光场的一种降维表示包含丰富的结构信息,2021年Liu等人[47]提出用EPI体积堆栈表示光场,以利用光场的结构信息。2023年,Yang等人[48]利用光场EPI中的结构信息以及场景中的局部细节和全局信息,较好的保留了光场几何一致性,缓解了视图合成时会产生伪影的问题。
上述通过利用视图、EPI信息的方法对部分细节纹理恢复和非朗伯曲面的处理有困难。2020年,Liu等人[49]提出用多角度极几何(Multi-AngularEpipolarGeometry,MA-EG)网络MALFRNet,来提高光场角度超分辨的性能。MA-EG包含多角度的光场几何信息为重建提供了多角度的几何特征,增强了网络的细节纹理恢复能力。2021年,Wu等人[50]用一种空间-角度注意力网络SAA-Net来感知光场中的非局部信息,有效的缓解了非朗伯效应。2023年,Liu等人[51]提出基于几何辅助的多表示视图重建网络,通过探索光场微透镜图像、SAI阵列和伪视频序列三种结构特征来合成高角度分辨率的密集光场图像堆栈。另外,苗源等人[52]使用神经辐射场[53]生成新视点图像的方法来进行光场角度超分辨,缓解光场图像分辨率之间相互制约的问题。LFASR方法考虑了角度信息的重要性,但还是存在视差结构不完整,面对宽基线光场或有遮挡的场景时难以取得理想的效果。
3.3基于深度学习的LFSASR方法
光场的空间信息和角度信息对LFSR任务都非常重要,前者提供光场视图内部结构信息,后者提供视图间的互补信息,通过将两者充分结合来联合解决光场的空间和角度分辨率问题,为光场成像带来新的可能。基于主干网络,将现有的LFSASR分为基于CNN和基于ViT(VisionTransformer)。如图5所示,LFSASR一般先提取空间、角度信息,再对其进行交互和融合,最后生成高分辨率光场图像。
3.3.1基于CNN的LFSASR方法
CNN在SISR和LFSR中都得到了广泛应用。Ivan等人[54]设计了一个基于单图像的端到端网络,证明了可以从单个图像中联合解决光场图像分辨率之间存在的相互制约问题。2020年,Ma等人[55]探索了LFSR与SISR之间的相似性,提出一种用于光场中心视图和全部视图的超分辨网络,能够灵活的平衡光场空间和角度分辨率,渲染的图像细节更清晰且没有渲染伪影。考虑到光场视图提供的空间信息和角度信息的重要性程度不同,Li等人[56]利用注意力机制来调整光场空间和角度信息的权重,同时超解析光场的所有视图,也将该网络与SISR网络结合,提高了该网络对单个视图的处理性能。2019年,Zhu等人[57]设计了基于EPI的CNN-LSTM网络,利用EPI信息同时在空间和角度维度上超分辨光场图像。该方法没有利用语义信息,网络的泛化能力得到了提高,但不能较好的保留光场空间-角度相关性。
上述使用局部EPI切片的方法很难利用光场视图全局的空间-角度相关性。Tran等人[58]提出的3DEPI重建方法,构建一个两阶段的框架来分别进行上采样和细化特征。2021年,Ko等人[59]利用混合特征来增强光场的空间和角度分辨率,实现在空间和角度域中插值图像。虽然取得一定的性能提升,但这种两阶段的超分辨策略,也不能完全利用光场空间-角度相关性。2020年,Wang等人[60]提出的光场空间-角度交互网络LF-InterNet,利用两个特征提取模块分别提取空间和角度特征,然后通过渐进式的交互融合,充分利用光场的结构特性,保留了光场的空间-角度相关性,缓解了光场图像分辨率之间相互制约的问题。2022年,徐欣宜等人[61]提出了一种联合注意力与特征融合模块的方法来融合光场的空间和角度信息。由于CNN的局部特性,上述方法在部分视差较小的光场数据上有较好的性能表现。但由于感受野受卷积核大小的限制,无法获得足够的上下文信息,不能充分提取光场的全局特征,在视差较大的场景中超分辨效果有限。
3.3.2基于ViT的LFSASR方法
ViT[62]网络能有效建模图像全局特征,有利于提取光场的空间-角度相关性。利用Transformer网络的特性,2022年,Liang等人[63]首次将ViT用于LFSR中,提出的LFT网络,使用两个Transformer模块来分别处理空间和角度信息,获得了良好的超分辨性能,但两个Transformer模块之间缺少交互,空间-角度相关性信息没有被充分利用。Wang等人[64]提出了细节保留的Transformer网络DPT,将每个垂直和水平的SAI视为一个序列,并通过空间-角度局部增强自注意力层来学习远程几何依赖关系,空间-角度相关性信息提取更充分。Liang等人[65]研究了光场图像超分辨中的非局部空间-角度相关性,开发的EPIT网络实现了沿极线的全局感受野,对视差变化具有鲁棒性。相比基于CNN的方法,基于ViT的方法利用Transformer网络提取全局特征,能更好的利用光场空间-角度相关性,更适用于视差较大的光场场景。
4 常用数据集和评价指标
本节介绍LFSR领域常用的2个合成光场数据集HCInew[66]、HCIold[67]和4个真实光场数据集EPFL[68]、INRIA[69]、STFgantry[70]、STFLytro[71],以及两个常用的评价指标峰值信噪比(PeakSignaltoNoiseRatio,PSNR)和结构相似性指数(StructureSimilarityIndexMeasure,SSIM)。
4.1常用数据集
如表1所示,HCInew[66]是由Honauer等人提出的光场基准数据集。共有24类分辨率为9×9×512×512的合成光场场景,其中包括分层场景、测试场景、训练场景和附加场景。HCIold[67]是由Wanner等人提出的第一个具有真值深度的合成光场数据库,由13个高质量的密集采样光场数据组成,包括7个合成光场数据和安装在Gantry上的单个尼康D800相机捕获的6个真实光场数据。
EPFL[68]是Martin等人利用LytroIllum相机构建的真实场景光场数据集。共有10个不同类别、118张光场图像,其中包含原始光场图像、深度图、相对景深坐标和相机校准数据。INRIA[69]是Pendu等人提出的一个真实场景光场数据集。包括Lytro相机捕获的63个真实场景和LytroIllum相机捕获的46个真实场景。STFGantry[70]是斯坦福大学利用LegoGantry捕获的13个类别、显微镜捕获的3个类别、Gantry获取的4个类别、阵列相机捕获的2个类别的光场数据集。STFLytro[71]是斯坦福用手持LytroIllum相机拍摄的9个类别的光场数据,包含光场原始图像以及相应的深度图。此外,2023年Xiao等人[72]通过调整相机的焦距采集了一个包含94对印在明信片上的城市场景和63对户外静态物体场景的真实光场数据集。图6展示了部分数据集的图像示例。
4.2评价指标
PSNR和SSIM是光场超分辨领域最常用的两种评价指标。PSNR是有损变换(图像压缩、图像修复等)重建质量测量方法之一,其值越大,代表效果越好,PSNR只与像素级的均方误差有关,而不关心视觉感知,是目前应用最广泛的超分辨模型评价标准。SSIM是基于亮度、对比度和结构的独立比较来衡量图像之间的结构相似度,其值越大,表示效果越好。SSIM是从人类感知系统的角度来评价重建质量,因此更符合感性评价的要求。具体细节可参考李雪涛等人[73]的文献。
LFSSR目的是提升图像的二维空间分辨率,在LFSSR任务中,使用PSNR和SSIM是对超分辨后的光场图像质量进行评价。LFASR任务一般是通过已知视角图像重建生成未知新视角图像,以此来获得角度分辨率的提升。在LFASR任务中,SSIM和PSNR实质上是对重建的新视角光场图像的质量进行评价,以间接地反映光场重建后的三维信息的角度分辨率质量。高质量的新视角图像反映了更好的光场角度分辨率质量,且大多数光场伪影也反映在光场视角图像的外观中,所以SSIM和PSNR两个指标可以有效地进行光场重建质量评估。光场角度超分辨质量不仅受重建的新视角光场图像质量的影响, 也受光场重建算法的影响,利用图像质量评价方法能够客观的评价LFASR的重建质量。
5 算法性能分析
本节对三类光场超分辨方法中部分典型网络模型的超分辨性能进行定量分析和定性分析。为保证实验结果的准确性,将上述几类方法原文献中的实验结果进行比较分析。数值结果如表2-表4所示,所有表中加粗的数值代表性能最好,加下划线的数值代表性能次好。视觉结果如图7-图9所示,便于观察将细节部分进行了放大处理。
5.1定量分析
表2展示了4种LFASR方法在不同数据集上的PSNR和SSIM值比较。如表2所示,MALFRNet[49]方法性能最佳,因为其使用的MA-EG结构能够利用光场多个不同角度的几何特征来提高光场的角度分辨率。VSLFC[74]方法总体上获得次好的性能,CNN-EPI[45]和shearedEPI[40]方法利用EPI信息的方式比较单一,所以在性能上稍逊于MALFRNet。
表3展示了4种LFSASR方法在不同数据集x2和x4放大倍数下的PSNR和SSIM值。由于Transformer网络擅长提取全局特征,所以三种基于ViT的方法DPT[63]、LFT[63]、EPIT[65]相比基于CNN的方法LF-Internet[60]性能更好,特别是在视差较大的数据集INRIA上表现最明显。其中,由于EPIT方法是对每个二维EPI之间构建依赖关系,且用擅长提取全局特征的Transformer网络来利用长远空间角度的相关性,所以获得了最好的性能。如表 4 所示,以双三次插值方法作为基线,列出了1种 SISR 方法 EDSR[28]和 3 种 LFSSR 方法(resLF[29]、LF-DFnet[30]、DistgSSR[34]) 在 不 同数据集 x2 和 x4 放大倍数下的 PSNR 和 SSIM 值。DistgSSR[34]几乎在所有数据集上的表现都是最好的,因为它先把空间信息从不同方向解耦,再进行融合,能更加充分的利用光场空间信息。而 SISR 方法EDSR 由于没有利用光场图像的结构等信息,所以在性能上略低于其他 LFSR 的方法,且参数量较大。
5.2定性分析
图7展示了不同LFASR方法的视觉效果。如图7中绿色和红色框所示,几乎所有方法在一些细节纹理区域处理效果不佳,如地上的裂缝,其中VSLFC方法几乎没有恢复出裂缝且存在严重的伪影。从图7中车的车轮部分可以看出,在有遮挡的情况下VSLFC和CNN-EPI两种方法结果都不太理想,车轮几乎没有恢复出来,而LF-SAS方法的表现更好。
图8展示了4种LFSASR方法在INRIA数据集中Palais和Bee两个场景上的视觉效果,如图8所示,3种基于ViT的方法中EPIT整体效果最好,特别是在场景Bee中更为明显,图8中红框内蜜蜂的腿部细节恢复得更清晰。然而在有遮挡的情况下,DPT和LFT的视觉结果也不乐观,如图8场景Palais红框内所示,房屋上的纹理细节几乎没有被恢复。由于CNN擅长提取局部特征,所以基于CNN的LFSASR方法LF-InterNet在光场图像中有遮挡的区域性能表现更好。
图9展示了不同LFSSR方法在HCInew数据集的Bedroom场景中x4放大倍数下的视觉结果。如图9所示,DistgSSR方法视觉结果最好,LF-DFnet次好。因为DistgSSR方法从不同方向解耦光场的空间信息,融合了更丰富的空间信息,所以重建的视觉效果比其他方法更真实。LFSR任务通过不同方法来利用光场的空间信息,重建的高分辨图像效果更真实,但是在细节纹理区域还是存在伪影和模糊,如图9中绿色箭头处所示。而SISR方法由于没有利用光场的空间信息,所以生成的模糊更严重。
6 LFSR面临的挑战与未来展望
光场的表示从7D全光函数到4D函数表示逐渐简化,光场的采集方式从相机阵列到便携式光场相机再到可集成在手机或者显微镜上的光场相机。随着光场研究的不断发展,其应用领域也在不断拓展,LFSR技术也逐渐成为了光场领域的热门研究之一。
6.1面临的挑战
尽管LFSR研究已经取得了丰硕的成果,但是在一些关键领域,仍然存在各种挑战:
6.1.1光场分辨率之间的相互制约
由于光场相机的硬件设计,导致光场空间分辨率与角度分辨率之间存在相互制约的问题。前文中梳理的三类LFSR算法利用不同的方法来缓解这个问题,虽然取得了一定成果,但是这些方法在生成的高分辨光场图像上还是存在有伪影、边缘模糊、纹理细节不清晰等不足。因此,缓解光场分辨率之间的相互制约是一个非常具有挑战性的问题。
6.1.2空间信息和角度信息交互不足
事实上,光场空间信息和角度信息的交互利用可以提升LFSR的性能。然而,由于光场图像的4D性,充分的结合利用光场空间信息和角度信息非常具有挑战性。文中梳理的算法有的单独利用光场空间信息[33]或者角度信息[42],两者之间没有明显的交互;有的方法空间、角度信息之间有交互[62],但是存在信息冗余或者交互不充分等问题。
6.1.3计算开销大
由于光场数据的高维性,无论是直接使用4D光场数据还是将光场表示为2D子空间[35-36]的方法,LFSR模型的计算开销都不低。提高计算效率和降低计算复杂度也是光场超分辨研究面临的挑战之一。
6.2未来研究展望
通过对现有优秀成果的梳理和分析,总结出以下三个LFSR领域未来可能的发展方向。
6.2.1模型轻量化
前文所述的三类LFSR方法中部分方法提出的模型结构复杂、计算开销大、参数量较大,对于实际应用中有限的计算和存储资源并不友好。轻量化模型已经在SISR等众多领域得到了良好的应用,但是在LFSR任务中研究较少。因此,适用于现实场景的、轻量化的LFSR模型有待被进一步的探索。
6.2.2空间、角度信息交互的方法
文献[8-11]已经证明了,同时利用光场的空间信息和角度信息能够更好的保留光场的空间-角度相关性,使超分辨的效果更好、更真实。因此,同时利用光场的空间和角度信息来重建光场图像极具发展潜力。探索符合光场结构的空间信息和角度信息交互方式,充分利用光场的空间信息和角度信息,以得到更好的超分辨性能。
6.2.3基于ViT+CNN的光场超分辨率
CNN擅长建模局部特征,能够处理场景中的局部细节信息,而ViT网络擅长建模长远全局特征,适用于提取光场的空间-角度相关性信息。将两者合理的结合,对光场的局部信息和全局结构信息的提取和利用都有帮助,且在LFSR领域目前仅有少数类似的算法被提出,基于ViT+CNN的光场超分辨率方法值得被进一步探索。
7 结语
文章从LFSSR、LFASR、LFSASR三个类别对近年来基于深度学习的LFSR算法进行了详细的梳理和分析。包括光场的基本理论、LFSR领域常用的数据集和评价指标、三类方法中典型算法性能的定量和定性分析。最后,总结了LFSR领域面临的挑战,并展望了该领域未来可能的发展方向,且对全文进行全面总结。
文章来源:激光与光电子学进展,2024,61(22):2200002.
作者:熊娅维,王安志,张凯丽
声明:转载此文目的在于传递更多信息,仅供读者学习、交流之目的。文章版权归原作者所有,如有侵权,请联系删除。