Unsupervised HDR Image and Video Tone Mapping via Contrastive Learning

Abstract

捕捉高动态范围 (HDR) 图像（视频）很有吸引力，因为它可以揭示黑暗和明亮区域的细节。由于主流屏幕仅支持低动态范围（LDR）内容，因此需要色调映射算法来压缩HDR图像（视频）的动态范围。尽管图像色调映射已被广泛探索，但由于缺乏 HDR-LDR 视频对，视频色调映射仍然落后，尤其是基于深度学习的方法。在这项工作中，我们提出了一个用于无监督图像和视频色调映射的统一框架（IVTMNet）。为了改进无监督训练，我们提出了基于领域和实例的对比学习损失。我们没有使用通用特征提取器（例如 VGG）来提取特征以进行相似性测量，而是提出了一种新颖的潜在代码，它是提取特征的亮度和对比度的聚合，以测量不同对的相似性。我们总共构建了两个负对和三个正对来约束色调映射结果的潜在代码。对于网络结构，我们提出了一个空间特征增强（SFE）模块来实现非局部区域的信息交换和转换。对于视频色调映射，我们提出了一种时间特征替换（TFR）模块，以有效利用时间相关性并提高视频色调映射结果的时间一致性。我们构建了一个大规模的不配对 HDR-LDR 视频数据集，以促进视频色调映射的无监督训练过程。实验结果表明，我们的方法优于最先进的图像和视频色调映射方法。我们的代码和数据集可在 https://github.com/caocong/UnCLTMO 获取。

I. INTRODUCTION

近年来，高动态范围（HDR）成像因其在同时揭示暗区和亮区细节方面的优越性能而受到越来越多的关注。然而，由于大多数设备仅支持低动态范围显示，因此需要色调映射算法来压缩 HDR 图像/视频的动态范围，以便能够在 LDR 屏幕上观看 [1]–[5]。

传统的HDR图像色调映射方法可以分为全局色调映射[6]-[9]和局部色调映射[10]-[13]。最近，基于深度学习的方法也被引入到色调映射中。对于监督学习，问题是如何获得输入 LDR 的基本事实。一种解决方案是利用几种可用的色调映射算法来生成 LDR，并选择具有最高色调映射质量指数 (TMQI) 的 LDR 结果作为基本事实 [14]。然而，性能受到可用色调映射方法上限的限制。另一种解决方案将色调映射视为低光图像增强任务，并使用配对的低光/正常光图像进行训练[15]。由于低光图像和 HDR 图像之间存在域差距，因此在增强数据集上训练的网络无法很好地用于 HDR 色调映射。最近，Vinker 等人。 [16]提出使用不成对的 HDR-LDR 图像进行无监督训练，并取得了可喜的性能。他们利用结构损失来保持 HDR 和 LDR 输出之间的结构一致性，并利用生成对抗网络 (GAN) 损失来迫使输出的亮度和对比度接近高质量 LDR 的亮度和对比度。然而，他们的结果仍然存在很多增强不足的地方。因此，需要制定更好的无监督训练策略。

对于 HDR 视频色调映射，仅开发了传统方法[17]-[23]。如何避免时间闪烁并同时保持丰富的细节仍然是视频色调映射的挑战。 [17]、[18]、[20]中的工作利用全局算子，可以生成具有良好时间一致性但空间对比度较低的结果。使用局部算子的作品[24]、[25]可以生成具有高对比度但更多时间伪影的结果。因此，需要开发一种有效的视频色调映射方法来实现时间一致性和丰富细节之间的良好平衡。

基于上述观察，我们提出了一种用于图像和视频色调映射的统一方法。我们的贡献总结如下。

• 我们提出了一种有效的HDR 图像色调映射网络。我们提出了一个空间特征增强（SFE）模块，它利用图卷积来实现非局部区域的信息交换和转换。我们提出了一种时间特征替换（TFR）模块，将我们的方法扩展到 HDR 视频色调映射，该方法是无 MAC 的，可以有效地利用时间相关性并提高色调映射结果的时间一致性。

• 无监督学习很难优化，我们提出了一组无监督损失函数来改善结果。首先，我们提出基于域和实例的对比损失，其中我们构建五个负对和正对来约束输出与高质量的 LDR 接近，并构建一个合适的潜在空间来测量负对和正对中潜在代码的相似性。其次，我们进一步提出自然度损失来限制输出的亮度和对比度。

• 我们构建了一个包含真实和合成HDR 和LDR 视频的大规模未配对HDR-LDR 视频数据集，这有利于视频色调映射的发展。实验结果表明，我们的方法优于现有最先进的图像和视频色调映射方法。

II. RELATED WORKS

在本节中，我们将简要回顾 HDR 图像和视频色调映射、图像和视频增强以及对比学习的相关工作。

A. HDR Image and Video Tone Mapping

HDR 色调映射是 LDR 到 HDR 重建的逆操作[26]、[27]，在文献中得到了广泛的探索。传统的HDR图像色调映射算法包括全局色调映射[6]-[9]和局部色调映射[10]-[13]。全局色调映射[6]-[9]利用全局曲线来压缩HDR图像，可以保持输入图像的相对亮度，但通常会导致局部对比度严重降低。局部色调映射[10]-[13]擅长改善局部对比度和细节，但通常会导致高对比度边缘之间的光晕伪影。对于基于DNN的HDR图像色调映射方法，主要有三类。一类侧重于监督学习[14]、[28]-[30]，他们将多种色调映射算法应用于HDR图像，并选择具有最高TMQI[31]的结果作为基本事实。第二类将色调映射视为图像增强任务，并使用具有配对数据的增强数据集进行训练[15]。最后一类摆脱了 LDR-HDR 对，并利用不成对的 HDR 和 LDR 数据 [16] 或仅 HDR 数据 [32] 进行无监督训练。这些工作要么关注无监督损失函数 [16]，要么利用无参考图像质量评估指标来优化 HDR 图像上的色调映射网络 [32]。

在图像TMO的基础上，传统视频色调映射算法[17]-[20]、[22]、[23]、[33]进一步引入时间处理以保持时间稳定性。尽管存在很多基于DNN的HDR图像TMO方法，但仍然没有基于DNN的视频TMO方法。在这项工作中，我们提出了一种用于图像和视频色调映射的统一无监督学习方法。我们进一步构建了一个大规模不配对的 HDR-LDR 视频数据集，以促进视频色调映射的开发。

B. Image and Video Enhancement

图像（视频）增强与色调映射类似，因为它也旨在提高输入的亮度和对比度。传统的图像增强方法通常是基于直方图（HE）或基于视网膜的方法。基于HE的方法注重改变输入图像的直方图以提高亮度和对比度[34]。基于 Retinex 的方法将输入图像分解为反射层和照明层，然后通过调整照明层来增强图像[35]-[37]。对于基于DNN的图像增强方法，存在三种训练策略，即全监督学习[38]、[39]、半监督学习[40]和无监督学习方法[41]-[44]。对于无监督学习，[41] 中的工作通过利用类似 CycleGAN 的架构 [45] 将低质量的智能手机照片映射到高质量的 DSLR 照片。 [42]、[43]中的工作设计了无监督损失函数来训练零样本模型。 [44]中的工作提出了一种自调节感知损失来限制低光图像和增强图像之间的内容一致性，并利用对抗性学习来增强对比度和亮度。有几种基于 DNN 的视频增强方法 [46]、[47]，但它们都基于监督学习和配对数据。由于用于图像增强的低光图像与HDR图像之间存在分布差距，直接利用预训练的图像（视频）增强模型进行色调映射并不能获得满意的结果。

C. Contrastive Learning

对比学习在自监督和无监督表示学习方面取得了有希望的进展[48]，[49]。它的目的是通过将锚点推离负样本并将锚点拉近潜在空间中的正样本来提高锚点的表示。关键是如何构造正负对，并找到距离测量的潜在空间。最近，对比学习已应用于低级视觉任务，例如图像翻译[50]、超分辨率[51]、去雾[52]、去雨[53]和水下图像恢复[54]。对于构建正负对的策略，[50]中的工作将两个域中内容一致的补丁视为正样本，并将其他补丁视为负样本。 [51]中的工作将对比学习应用于无监督退化估计，将相同和不同的退化分别作为正对和负对。 [52]-[54]中的作品将高质量图像作为正样本，将低质量输入图像作为负样本。对于距离测量的潜在特征（代码），[52]利用VGG[55]网络来提取潜在特征，[51]利用额外的编码网络来编码退化类型，[50]，[52]–[54] 利用训练网络本身提取的特征。对于无监督图像（视频）色调映射，由于不存在配对监督，不同图像（视频）的生成器提取的特征具有不同的内容，并且不能直接用于距离测量。因此，我们建议聚合不同通道的平均亮度和对比度，并将其用作色调映射图像（视频）的潜在代码。

III. THE PROPOSED METHOD

在本节中，我们首先介绍网络结构，然后介绍我们的复合损失函数。

A. Network Structure

给定一个 HDR 图像（视频）Ih，我们的目标是通过我们的网络 IVTMNet 生成其高质量的 LDR 图像（视频）Io，如图 1 所示。IVTMNet 由类似 UNet 的生成器和判别器构建。为了捕获亮度和对比度的全局统计数据，我们在 UNet 的底层引入了空间特征增强（SFE）模块。对于视频色调映射，我们提出了时间特征替换（TFR）模块，这有利于时间一致性。由于该模块无需 MAC（乘法累加运算），因此通过移除 TFR 模块可以方便地在视频和图像 TMO 之间进行切换。鉴别器用于区分色调映射结果，它由步长为 2 的级联卷积构成。我们网络的关键模块是 TFR 和 SFE，其详细信息如下。

1) Spatial-Feature-Enhanced (SFE) Module:

大的感受野有利于图像（视频）增强，因为它可以捕获亮度和对比度的全局统计数据[56]。在这项工作中，我们采用[57]中提出的图卷积来进一步增强空间特征并扩大网络的感受野。我们将特征图分成许多块，每个块都被视为一个节点。这些节点通过连接相邻节点来构建图。该图可以转换和交换来自所有节点的信息。这样，距离较远的相似补丁可以交换和共享信息，从而可以提高性能。继[57]之后，我们还在图卷积之后应用多层感知器（MLP）模块进行节点特征转换。为了节省计算成本，我们仅在 UNet 的底层使用 SFE 模块。

2) Temporal-Feature-Replaced (TFR) Module:

与图像色调映射相比，视频色调映射的主要挑战是使结果在时间上保持一致。传统的视频色调映射方法通常通过两种方式解决这个问题，即利用流引导局部滤波或色调映射后的时间平滑。一个简单的时间平滑策略是将先前帧的结果与当前帧 It 混合，表示为

然而，这可能会引入重影伪影。在这项工作中，我们提出了一个 TFR 模块来模仿它。最近，无对齐模块已广泛应用于视频去噪[58]-[60]。 TFR模块可以看作是一种免对齐模块。

具体来说，对于每一帧Yt，我们沿着通道维度将其对应的特征Ft分成F1t和F2t，如图1（c）所示。假设Ft的通道数为q，F1t和F2t的通道数分别为(1−β)q和βq，其中β是分光比，在我们的实验中设置为1/32。然后，我们将 F2 t 替换为 F2 t−1，即我们将 F1 t 和 F2 t−1 连接起来，构建第 t 帧的时间增强特征 Fˆ t。

如图 1 所示，我们在不同尺度的每个特征提取块之后插入 TFR 模块。以下卷积滤波器可以选择性地利用特征 F2 t−1 来帮助减少闪烁伪影并避免重影伪影。例如，对于完全静态的区域，此操作可以帮助减少噪声，因为具有相同对象但不同噪声的两帧通过以下滤波器融合。由于参数β（设置为1/32）相对较小，并且我们使用结构损失来约束结果与当前帧接近，因此可以通过以下方式消除可能在快速运动区域中引入的重影伪影：以下过滤器。因此，所提出的 TFR 可以帮助减少闪烁伪影并避免重影伪影。请注意，在测试过程中，我们利用缓冲区来保存前一帧的特征，这些特征可以反复用于预测下一帧的结果。

3) Color Reproduction:

受[16]、[61]-[63]的启发，我们在YUV空间中的亮度通道（Y）上执行色调映射。我们将输入和输出 Y 通道分别表示为 Yh 和 Yo。 Yo 通过色彩再现过程转换为 Io [16]、[61]–[63]。具体来说，Io i = (Ih i /Yh)νYo，其中 i 分别表示 R、G 和 B 通道索引，Ih 是原始 HDR 输入。 ν为色彩饱和度参数，设置为0.5。这样就可以保留原始HDR的颜色。

B. Loss Functions

由于监督学习没有完美的 HDR-LDR 图像（视频）对，因此我们提出无监督损失来优化网络。具体来说，涉及五种损失，包括结构损失、对抗性损失、对比学习损失、自然性损失和总变异损失。以下是五个损失函数的详细信息。

1) Structure Loss:

色调映射过程应该只改变对象的亮度，而不改变内容。因此，我们采用[16]中提出的结构损失来保留输入HDR数据和网络输出之间的内容和结构。正如[16]中提到的，由于SSIM度量[64]对于亮度和对比度的变化不是不变的，所以它不适合色调映射任务，其中输出预计会在亮度和对比度上发生重大变化。因此，我们使用 Pearson 相关性 [65] 而不是 SSIM 来衡量两幅图像之间的结构相似性，其可以表示为

其中 pI1 和 pI2 是图像 I1 和 I2 中的块，cov(·,·) 和 σ(·) 是对块计算的协方差和标准差，np 是块的总数。在我们的实现中，补丁大小为 5×5，补丁提取的步长为 1。将其扩展到结构损失为：

其中 ↓k 表示第 k 个空间尺度的下采样操作（k=0 表示原始分辨率，k=1 表示 1/2 下采样分辨率），t 表示视频中连续帧的时间索引。对于图像色调映射，T 为 1。

2) Adversarial Loss:

我们利用对抗性学习来帮助网络产生令人愉快的结果。我们训练我们的鉴别器网络 D（其详细的网络结构在supp.文件中给出）来区分生成器的输出 Yo 和不成对的优质 LDR 数据 Ygl。生成器 G 被训练生成好的图像（视频）来欺骗鉴别器。与[16]使用最小二乘GAN[66]不同，我们采用对偶对比GAN[67]进行训练，因为它可以进一步改善特征表示。判别器损失公式为

其中 P x f(x) 表示 N 个已处理样本 f(x) 的总和。 EYo 表示计算所有 Yo 的方括号内的期望值或平均值。第一项旨在教导鉴别器将单个高质量 LDR 图像（视频）与一批生成的图像（视频）分离。第二项旨在将单个生成的图像（视频）与一批高质量的 LDR 图像（视频）分离。生成器loss可以相应地表述为

最终的对抗性损失可以表示为

其中 λAdv 是权重参数（设置为 0.1），用于控制鉴别器和生成器损失之间的比率。

3) Contrastive Learning Loss:

没看懂，待续。。。

4) Naturalness Loss:

我们进一步提出了自然度损失，通过用平均亮度和平均对比度来测量图像的自然度，其中平均亮度是根据平均值 (m(·)) 计算的，对比度是根据方差 (σ2( ·))（这个过程类似于SSIM [64]中使用的过程）。具体来说，基于补丁（补丁大小为11×11，补丁提取步骤为1）计算距离，如下所示。

其中 ψσ(I1, I2) 和 ψm(I1, I2) 分别表示两幅图像之间的对比度和平均亮度差。一方面，我们将输出的自然度限制为与高质量 LDR 数据（即帧间监督）相似，因为它们具有令人愉悦的亮度和对比度。该损失被表述为

另一方面，我们观察到对于一张图像，存在一些色调映射良好的区域。因此，我们将输出分成四个补丁（即2×2补丁），补丁大小取决于图像分辨率。然后，我们选择具有最高 TMQI socre 的补丁作为帧内标签，表示为 Ygp t 。该损失被表述为

这两个术语一起构成了我们的自然性损失。对于图像 TMO，上述两个公式中的 T 等于 1。我们使用 TMQI 分数，而不是其他测量（例如 NIQE），因为 TMQI 是专门为 HDR TMO 评估而设计的，可以更好地对输出进行排序。

5) Total Variation Loss:

为了消除黑暗区域中放大的噪声，我们进一步将总变分（TV）损失应用于生成器的输出 Yo t ，表示为

其中T是视频TMO中的视频帧数，并且在图像TMO中等于1。 ∇x和∇y分别表示水平和垂直梯度操作。

通过上述损失函数，我们的完整损失函数可以表示为

其中加权参数（λ1...λ6）用于控制每个损失的比率。

IV. DATASET

A. Image Tone Mapping Dataset

继[16]之后，我们还利用来自 HDR+ 数据集的 1000 张 HDR 图像和来自 DIV2K 数据集 [68] 的曝光良好的 LDR 图像进行图像色调映射训练。由于我们基于域的 CL 损失需要曝光不良的 LDR 数据，因此我们进一步利用[69]中亮度和对比度不佳的 1300 张图像作为曝光不良的 LDR 图像进行训练。按照[16]的设置，我们将每个训练图像裁剪并重新缩放到256×256的大小。我们评估了 HDR Survey [70]、HDRI Haven [71] 和 LVZ-HDR 数据集 [15] 上的性能，与 [16] 相同。

B. Video Tone Mapping Dataset

没有用于视频色调映射的可用监督或无监督数据集，也没有完美的解决方案来为 HDR 输入生成地面实况 LDR 视频。因此，我们构建了不配对的 HDR-LDR 视频数据集，以实现我们的网络的无监督训练。

首先，我们使用真实捕获的视频构建未配对的 HDR-LDR 视频数据集。我们从传统的 HDR 色调映射作品 [72]、[73] 和 HDR 重建作品 [74]-[76] 中收集 HDR 视频。考虑到具有较大闪烁伪影的 HDR 视频会影响色调映射算法的评估，我们将其删除并总共收集了 100 个高质量的 HDR 视频。对于 LDR 视频，我们从 DAVIS 数据集 [77] 中选择 80 个曝光良好的 LDR 视频进行对抗性学习并在对比学习中构建正对。我们收集的大多数HDR视频都是1280×720，我们将其他视频（1920×1080[72]、1476×753[76]）调整为1280×720以统一分辨率，这将简化接下来的补丁裁剪过程。 100 个 HDR 视频分为训练和验证集（80 个视频）和测试集（20 个视频）。

考虑到对抗性学习和对比学习都需要大量的训练数据来改进优化过程，我们进一步构建了合成的 HDR 和 LDR 视频。具体来说，我们通过动态随机裁剪从静态图像合成视频。我们利用来自 HDR+ 数据集 [78] 的 1000 张 HDR 图像、来自 DIV2K 数据集 [68] 的 780 张质量良好的 LDR 图像以及来自 [69] 的 1300 张亮度和对比度较差的 LDR 图像。对于一幅图像，我们首先以γ的比率对其进行随机下采样，然后随机裁剪分辨率为256×256的T个补丁，以构建具有T帧的序列。下采样率γ的范围为1至2.8。当 γ 较小时，裁剪后的斑块具有重叠区域的概率较小。在这种情况下，我们模拟具有较大运动的视频，反之亦然。合成的 LDR 较差的视频用于 CL 中的负对构建。高质量的 LDR 视频用于对抗性学习和正向配对构建。

总之，我们的视频色调映射数据集包含 1100 个 HDR 视频、860 个质量良好的 LDR 视频和 1300 个质量较差的 LDR 视频。其中，选取20段实拍HDR视频进行测试。在测试过程中，我们直接以原始分辨率处理视频。

V. EXPERIMENTS

A. Training Details

在图像TMO训练期间，每张图像被裁剪和重新缩放以提供两个256×256图像，这与[16]相同。在视频TMO训练过程中，我们将真实的HDR和LDR视频从1920×1080调整为455×256，并随机裁剪256×256序列进行训练。合成的 HDR 和 LDR 视频也被下采样，然后裁剪为 256×256 序列，这已在第 IV-B 节中进行了描述。因此，训练补丁具有较大的动态范围。批量大小设置为 8。对于视频色调映射，帧数 T 设置为 3，这可以确保时间稳定性并避免重影伪影。我们分别用学习率 1e-5 和 1.5e-5 训练生成器和判别器，它们每 10 个 epoch 衰减一半。对于训练过程中的每次迭代，我们首先通过最大化方程来优化判别器。 5，然后通过最小化方程来优化生成器。 6. 等式中的样本数N。式5、6和8中的参数η和c设置为16。 9设置为1e2和1。不同损失函数的权重参数λ1...λ6动态更新。在早期阶段（小于7个epoch），我们主要通过对抗性学习和对比学习来优化网络。因此，λ1...λ6分别设置为1、0.5、0.1、0.001、0.001、0.001。在中间阶段（7-10个epoch），我们放大权重λ4（将其设置为0.5），这迫使网络产生更好的亮度和对比度。在后期（10-20个epoch），我们进一步迫使网络自学习，并将λ5、λ6分别设置为0.5和0.2。请注意，由于第二自然度损失取决于输出，因此 λ5 的放大晚于 λ4。我们想指出的是，我们的最终结果对权重参数的变化并不敏感。如果我们一直固定 λ1...λ6，我们仍然可以获得好的结果，仅比我们当前的设置稍差一些。

B. Ablation Study

。。。

C. Comparison for HDR Image Tone Mapping

为了证明所提出的 TMO 对于图像色调映射的有效性，我们与 HDR Survey 数据集 [70]、HDRI Haven 数据集 [71] 和 LVZ-HDR 数据集 [15] 上最先进的图像色调映射方法进行了比较，分别。对于比较方法，[14]、[15]、[29]、[30]是基于全参考的TMO方法，[16]是不成对的TMO方法，[32]是基于非参考（零参考）的TMO方法方法。由于 TMOCAN [32] 没有发布预训练模型，我们在 HDR+ 数据集上重新训练它以进行公平比较。结果分别示于表III、IV和V中。除了TMQI之外，我们还利用盲TMQI（BTMQI）[88]来评估色调映射质量。可以看出，我们的方法在所有三个图像 TMO 数据集中实现了最佳 TMQI 和 BTMQI 分数。对于 HDR Survey 数据集，我们的方法在 TMQI 和 BTMQI 分数方面优于第二佳方法 UnpairedTMO，分别提高了 0.013 和 0.06。对于 HDR Haven 数据集，我们的方法在 TMQI 和 BTMQI 分数上比第二好的方法分别提高了 0.014 和 0.11。对于 LVZ-HDR 数据集，我们的方法在 TMQI 和 BTMQI 分数上优于第二佳方法 0.016 和 0.131。

图4分别展示了三个图像TMO数据集的视觉比较结果。其中，DeepTMO[30]有时会生成带有假颜色的结果，如图4第一行中的蓝色树。[32]中的工作生成过度增强的结果，具有不自然的对比度和纹理。 [10]和[13]中的作品有时会产生曝光不足的结果，特别是在 HDRI Haven 数据集中的几个场景上。 [15]中的工作通常会产生过度曝光的结果，如图4（c）所示。 UnpairedTMO[16]可以产生更好的结果，但通常存在曝光不足和曝光过度的区域。与这些方法相比，我们的方法具有最佳的视觉质量，具有合适的亮度和对比度。

D. Comparison for HDR Video Tone Mapping

E. User Study

为了进一步验证我们的图像 TMO 结果的优越性，我们通过将我们的方法与五种竞争方法进行比较来进行用户研究，包括 [10]、[13]、DeepTMO [30]、TMONet [15] 和 UnpairedTMO [16]。对于每次比较，用户都被要求从两张图像中选择一张视觉质量更好的图像，其中一张是由我们的方法生成的。视觉质量包括对比度、自然度和细节保留。用户研究涉及 15 个受试者，我们从测试集中随机选择 30 个场景进行评估。如图 6 所示，我们的方法优于所有比较的五种方法。

我们还通过将我们的方法与三种竞争方法（包括[20]、TMOCAN [32]和UnpairedTMO [16]）进行比较来进行视频TMO质量评估的用户研究。与图像 TMO 评估的用户研究类似，我们要求用户从包含我们结果的两个视频中选择一个质量较好的视频。除了图像质量测量之外，视频质量还通过时间一致性来测量。用户研究共有 15 个主题和 10 个视频。如图 7 所示，与比较方法相比，用户更喜欢我们的方法。

F. Computing Complexity

在本节中，我们进一步给出乘加运算（MAC）方面的计算复杂度比较。如表VI所示，我们列出了每种方法生成分辨率为256×256的LDR帧输出所需的MAC。对于我们的方法，我们给出了具有不同通道数的三种实现。具体来说，我们减少了 IVTMNetfull 的通道数以构造 IVTMNet0.75 和 IVTMNet0.5，其通道数分别是完整解决方案的 0.75 和一半。可以观察到，IVTMNetfull、IVTMNet0.75和IVTMNet0.5是TMQI和BTMQI得分前三名的模型。 IVTMNet0.5的MAC最低，其RWE值比IVTMNetfull稍差。 IVTMNet0.75在色调映射性能和计算复杂度之间实现了良好的平衡。

VI. CONCLUSION

在本文中，我们通过提出有效的 IVTMNet 和一组无监督损失函数来探索无监督图像和视频色调映射。通过引入TFR模块可以方便地在图像和视频TMO之间切换，可以提高视频色调映射结果的时间一致性。为了改进无监督训练，我们提出了基于领域和实例的对比学习损失，并提出了一个新的潜在空间来测量负对和正对的相似性。图像和视频色调映射数据集上的实验结果证明了该方法在增强亮度和对比度以及保持色调映射结果的时间一致性方面的优越性。

我们的工作也有一些局限性。首先，与传统的 TMO 相比，我们的网络消耗大量的计算资源。未来，我们希望通过设计更多计算友好的层来降低计算成本。其次，HDR 图像涵盖了多种照明氛围，从高对比度的低调到高调。然而，在 TMO 期间，我们没有设计损失函数来帮助保留色调映射结果的光照情绪。我们期望就此主题开展更多工作。