1.摘要

本文提出了一种基于梯度和强度比例维护（PMGI）的快速统一图像融合网络，可以端到端实现各种图像融合任务，包括红外和可见图像融合、多曝光图像融合、医学图像融合、多焦点图像融合和全色增强。我们将图像融合问题统一为源图像的纹理和强度比例维护问题。一方面，网络被分为梯度路径和强度路径进行信息提取。我们在同一路径中进行特征重用，以避免由于卷积导致的信息丢失。同时，我们引入路径传输块在不同路径之间交换信息，它不仅可以预先融合梯度信息和强度信息，而且还可以增强后续要处理的信息。另一方面，我们根据这两种信息定义了一种统一的损失函数形式，可以适应不同的融合任务。在公开可用的数据集上的实验表明，我们的 PMGI 在各种融合任务中的视觉效果和定量指标上均优于现有技术水平。此外，我们的方法比现有技术更快。

2.引言

图像融合旨在从不同传感器获取的图像中提取最有意义的信息，并将信息合并生成一个单一的图像，该图像包含更丰富的信息，更有利于后续应用。常见的图像融合包括红外和可见图像融合、多曝光图像融合、多焦距图像融合、医学图像融合和遥感图像融合（也称为全色增强）。它们被用于目标检测、高清晰度电视、医学诊断等领域（Ma、Ma和Li 2019；Ma等2017；Xing等2018）。

现有的图像融合方法虽然在相应的融合任务中可以取得良好的结果，但仍有几个方面需要改进。首先，现有的方法通常需要手动设计活动级别测量和融合规则。考虑到源图像的多样性，这将变得越来越复杂。其次，大多数方法仅适用于特定的融合任务，而不能通用。从图像融合的本质出发设计一种通用方法是非常重要的。第三，由于计算复杂度和大量参数数量，现有的融合方法在时间上往往不太具有竞争力。

为了解决这些挑战，我们提出了一种基于梯度和强度比例维护（PMGI）的快速统一图像融合网络，可以高效地端到端实现各种类型的图像融合任务。首先，PMGI是一个端到端模型，源图像为输入，融合图像为输出，中间没有任何手动干预。其次，我们将融合问题转化为梯度和强度信息的维护。强度信息使融合图像具有与源图像类似的直方图分布，而梯度信息则提供更精细的纹理细节。因此，我们为多图像融合任务定义了统一的形式的损失函数。为了使网络适应不同的图像融合任务，我们可以通过调整每个损失项的权重，选择更有效和有趣的信息以在融合结果中保留。最后，我们将网络分为梯度路径和强度路径，分别提取源图像中对应的信息。为了最小化卷积引起的信息损失，同一提取路径中每层的特征被重复使用。我们还介绍了两个路径之间的路径传递模块。一方面，它可以预先融合梯度和强度信息。另一方面，它可以增强后续处理的信息。值得注意的是，由于使用了1×1卷积核并控制了特征通道数量，我们网络中的参数数量限制在一定范围内。因此，我们的方法可以以较高的速度实现融合。

我们的工作贡献包括以下三个方面：

我们提出了一种新的端到端图像融合网络，可以统一实现各种图像融合任务。提出的PMGI可以很好地融合红外和可见图像、多曝光图像、医学图像、多焦距图像和遥感图像。
我们设计了一个特定的损失函数，适用于几乎所有的图像融合任务，并可以通过调整每个损失项的权重来达到预期的结果。
我们的方法可以在多个融合任务中以更高的效率执行图像融合。代码可在以下网址获得：https://github.com/HaoZhang1018/PMGI ↗ AAAI2020。

3.方法

图像融合的本质是将源图像中最重要的信息结合起来，生成一个具有更丰富信息和更好视觉效果的单张图像。在不同的图像融合任务中，源图像的属性存在很大的差异，因此不适合采用相同的处理方式。然而，在大多数情况下，两种类型的源图像之间存在一种潜在的关联性，因为它们都描述着同一场景，源图像中包含了互补的信息。因此，我们尝试通过合理的网络架构和损失函数设计来以统一的方式解决不同种类的融合任务。

由于图像最基本的元素是像素，像素的强度可以表示图像的直方图分布，像素之间的差异构成了梯度，可以表示图像的纹理细节。因此，我们从这两方面的信息来描述整个图像：梯度和像素强度。这体现在网络架构和损失函数中。

我们将网络分为两个信息提取路径：梯度路径和强度路径。对于梯度路径，它负责提取纹理信息，即高频特征。同样地，对于强度路径，它负责提取强度信息。由于需要同时从两种类型的源图像中提取和保留梯度信息和强度信息，因此每个信息提取路径的输入由沿通道维度连接的不同源图像组成，以保留潜在相关性。我们将这两个源图像的连接比例设为β。此外，我们还进行特征重用和信息交换操作。

首先，信息在卷积过程中的损失是不可避免的。特征重用可以在一定程度上减少信息损失并增加特征利用率。不同类型的信息之间的交换可以预先融合梯度和强度信息，并且也是下一次提取之前信息的增强。

除了上述的通用网络结构，我们还根据图像的性质设计了一种形式统一的损失函数。我们将图像融合问题转化为梯度和像素强度信息的比例维护问题。我们的损失函数由两种类型的损失项组成：梯度损失和强度损失。它们都是为两种源图像构建的。分别来说，强度约束可以提供粗略的像素分布，而梯度约束可以增强纹理细节。它们的联合约束可以实现合理的像素强度分布和丰富的纹理细节。由于融合图像不能保留源图像的所有信息，我们必须在强度分布和纹理细节之间进行权衡，以保留更重要的梯度和强度信息。因此，我们可以调整每个损失项的权重，以改变各种类型信息的比例，使其适应不同的图像融合任务。

3.1 Network Architecture

提出的PMGI是一个非常快速的卷积神经网络。如图1所示，我们将网络分为梯度路径和强度路径，以进行相应的信息提取。梯度和强度信息通过路径传输块进行通信。值得注意的是，在多次尝试之后，输入中两个源图像的连接比例β被确定为1:2。

在两个路径中，我们使用四个卷积层进行特征提取。参考DenseNet的思想，在同一路径中进行密集连接以实现特征重用。此外，路径传输块用于在这两个路径之间传递信息，因此第三和第四个卷积层的输入不仅取决于所有先前卷积层的输出，还取决于另一个路径中卷积层的输出。第一层使用5×5的卷积核，后三层使用3×3的卷积核，并结合批归一化和Leaky ReLU激活函数。路径传输块的结构也显示在图1右下角。它使用1×1的卷积核，结合批归一化和Leaky ReLU激活函数。

然后，我们使用连接和卷积的策略来融合从两个路径提取的特征。我们沿通道连接两个特征映射。值得注意的是，这里仍然使用特征重用的思想。涉及连接的八个特征映射来自两个路径的总共八个卷积层。最后一个卷积层的卷积核大小为1×1，激活函数为tanh。在所有卷积层中，填充设置为SAME，步幅设置为1。因此，这些卷积层都不改变特征映射的大小。

3.2 损失函数

损失函数决定了提取的信息类型和不同类型信息之间的比例关系。我们网络的损失函数由两种类型的损失项组成，即强度损失和梯度损失。强度损失用于约束融合图像保持与源图像类似的强度分布，而梯度损失则强制融合图像包含丰富的纹理细节。需要注意的是，我们为每个源图像构造这两种类型的损失项。因此，损失函数包含四个项，表示为：

$L_{PMGI} = \lambda_{Aint} L_{Aint} + \lambda_{Agrad} L_{Agrad} + \lambda_{Bint} L_{Bint} + \lambda_{Bgrad} L_{Bgrad} \qquad (1)$

其中 $A$ 和 $B$ 分别是两个源图像， $L_{int}$ 表示一个源图像的强度损失项， $L_{grad}$ 表示相应的梯度约束项， $\lambda$ 是每个损失项的权重。

强度损失定义为：

$L_{Aint} = \frac{1}{HW} \left\lVert I_{fused} - I_A \right\rVert_2^2, \qquad L_{Bint} = \frac{1}{HW} \left\lVert I_{fused} - I_B \right\rVert_2^2 \qquad (2)$

其中 $I_{fused}$ 是由PMGI生成的融合图像， $I_A$ 和 $I_B$ 是两个源图像， $H$ 和 $W$ 分别是图像的高度和宽度。

同样地，用 $\nabla$ 表示梯度操作符，梯度损失的定义如下：

$L_{Agrad} = \frac{1}{HW} \left\lVert \nabla I_{fused} - \nabla I_A \right\rVert_2^2, \qquad L_{Bgrad} = \frac{1}{HW} \left\lVert \nabla I_{fused} - \nabla I_B \right\rVert_2^2 \qquad (3)$

需要注意的是，公式（1）中的 $\lambda$ 可以调整，以改变融合图像中不同类型信息的比例，以适应不同的任务。具体任务对应的参数设置规则如下所述。

对于红外和可见光图像融合，我们希望可见光图像的梯度信息和红外图像的强度信息主要保留在融合结果中，而可见光图像的强度信息和红外图像的梯度信息次要。因此，参数 $\lambda$ 应满足以下设置规则：

$\lambda_{irint} > \lambda_{visint}, \qquad \lambda_{irgrad} < \lambda_{visgrad} \qquad (4)$

对于多曝光图像融合，过曝光和欠曝光图像都包含相等的纹理细节，但它们的强度太强或太弱。因此，我们设置相同的权重来平衡它们，以获得适当的强度和丰富的纹理细节，可以形式化为：

$\lambda_{overint} = \lambda_{underint}, \qquad \lambda_{overgrad} = \lambda_{undergrad} \qquad (5)$

对于多焦点图像融合，两个源图像的两种信息（梯度和强度）同等重要。这是因为我们希望同时保留两个源图像的强度和纹理信息，而另一个源图像中的聚焦（清晰）区域可以补充失焦（模糊）区域。因此，也需要设置相应的参数保持一致：

$\lambda_{focus1int} = \lambda_{focus2int}, \qquad \lambda_{focus1grad} = \lambda_{focus2grad} \qquad (6)$

类似地，对于医学图像融合，结构性医学图像反映了器官的纹理信息，而功能性医学图像则表示功能信息，例如代谢强度。我们以MRI和PET图像作为结构图像和功能图像的示例，从MRI图像获取主要纹理信息，从PET图像获取主要强度信息。但是，考虑到PET图像的I分量的像素强度远高于MRI，如果主要约束PET图像的像素强度，则融合图像的过度强度会掩盖纹理。因此，为了平衡纹理和强度，我们使PET和MRI的像素强度受到相同的约束。因此， $\lambda$ 应设置为：

$\lambda_{PETint} = \lambda_{MRIint}, \qquad \lambda_{PETgrad} < \lambda_{MRIgrad} \qquad (7)$