阅读翻译：Unsupervised Change Detection Based on Image Reconstruction Loss

Abstract:

为了训练变化检测器，使用在同一区域的不同时间拍摄的双时图像。然而，收集标记的双时相图像既昂贵又耗时。为了解决这个问题，已经提出了各种无监督的变化检测方法，但它们仍然需要未标记的双时态图像。在本文中，我们提出了基于图像重建损失的无监督变化检测，仅使用未标记的单个时间单个图像。图像重建模型被训练以通过接收源图像和光度变换的源图像作为一对来重建原始源图像。在推理过程中，模型接收双时间图像作为输入，并尝试重建其中一个输入。双时间图像之间的变化区域显示出高重建损失。即使仅使用单个时间单源图像，我们的变化检测器在各种变化检测基准数据集中也显示出显着的性能。代码和经过训练的模型将公开提供以进行重现。

1. Introduction

在地球视觉中，变化检测是一项检测来自不同时间和同一区域的两幅高空间分辨率 (HSR) 图像（即双时间图像）中语义变化的任务。变化检测是地球视觉领域中一项非常重要的任务，用于城市扩张、城市规划、环境监测和灾害评估[15,32]。

然而，两个 HSR 图像之间的手动比较和变化检测是一项非常劳动密集且成本高昂的工作。为了解决这个问题，最近提出了基于深度学习的变化检测方法 [5, 11]，结果很有希望。由于数据驱动的性质在深度学习方法中，双时间图像和相应变化标签的大规模训练数据集对于监督方法至关重要 [5,11]。挑战在于昂贵的数据集：收集正确配准的双时相 HSR 图像的成本很高，并且注释它们之间的变化比一般语义分割 [28] 或对象检测数据集 [31] 成本更高。另一个挑战是不平衡的数据集：变化检测数据集需要在同一区域的不同时间拍摄的两张图像，而在现实世界的场景中，变化很少，因此收集存在变化的变化检测数据集更加困难（例如类平衡）。

为了解决这个数据收集问题，已经提出了各种无监督变化检测 (UCD) 方法 [10,14,21,25]。 UCD 方法有效地解决了变化检测中昂贵的注释问题，但它们仍然需要正确配准的双时相 HSR 图像，或者与监督学习方法相比性能较低。

在现有的 UCD 设置中，由于没有明确地训练 change 和 unchange，因此预测结果在发生更改时和未发生更改时都是有噪声的。为了解决这个问题，大多数 UCD 方法都使用后处理。但是，他们没有透露如何进行后处理，或者他们对特定情况过度拟合。（例如，小面积的像素被移除

受无监督异常检测研究的启发 [13, 20]，我们重新考虑了 UCD 设置。在变更检测和异常检测中，变更/异常情况在现实世界中很少见。无监督异常检测方法 [13, 20] 仅使用正态数据训练图像重建模型，并且模型适合正态分布。在推理过程中，正态输入将被很好地重构，因为它们属于正态分布；另一方面，异常输入将具有很高的重构误差，因为它们超出了正态分布。 UCD 可以使用无监督异常检测等重建错误吗？由于可以综合生成未更改的对，我们可以训练一个训练正态分布的图像重建模型。例如，如果变化检测器通过将 X t1 与自身配对在未更改区域上进行训练，则它可以在没有 X t2 图像或更改标签的未更改区域上进行训练。

在本文中，我们提出了基于图像重建损失（CDRL）的无监督变化检测，仅使用未标记的单时间单源图像。所提出的方法明确地解决了变化检测中数据收集的挑战，因为它不需要昂贵的双时间 HSR 图像、昂贵的注释，也不需要具有足够变化的平衡数据集。 CDRL 被训练以通过接收源图像和光度变换的源图像作为一对来重建原始源图像。光度变换的目的是创建模拟不变对的伪不变对，如图 1-(a) 和图 1-(c) 所示。在未更改的对中，根据定义没有结构变化，而只有样式变化或光度变化。伪改变对可用于训练 CDRL 而不是改变对。与无监督异常检测类似，CDRL 在训练期间仅接收（伪）未更改的对图像，并被训练以重建原始源图像，因此如果在推理期间输入未训练的案例（更改的对图 1-（b）），则重建该地区的损失很高。

然而，与现有的无监督异常检测研究不同，变化检测通常接收两个图像，因此存在两个主要问题。首先，图像重建模型应该能够通过接收两对图像来重建原始源图像。二、再构建模型应该更多地关注光度变换源图像的结构信息。为了解决这个问题，我们提出了一种使用基于编码器-解码器的生成对抗网络的图像重建模型。 CDRL 由一个共享编码器组成，用于从每个图像中提取特征，以及一个解码器，用于融合两个图像的特征以进行图像重建。为了关注光度变换后的源图像的结构信息，只对光度变换后的源图像进行空间关注。

为了验证我们提出的 CDRL 的功效，我们在 LEVIR-CD [6] 和 WHU-CD [22] 上对其进行了评估。即使 CDRL 不使用双时间对或预训练权重，CDRL 也大大优于使用双时间对的现有 UCD 方法和使用预训练权重的 UCD 方法。

综上所述，我们的主要贡献如下：

我们提出了 CDRL，这是一种在 UCD 中的单时间单源图像上训练变化检测器的方法。据我们所知，这是首次在 UCD 中使用单时间单源图像。

我们提出了一种基于编码器-解码器的生成对抗网络，它接收成对的图像作为输入。

我们在各种变化检测数据集上评估 CDRL，并且 CDRL 大大优于以前的 UCD 方法。

2. Related Work

我们要解决的问题是 1?获得包含变化区域的匹配双时间图像比获得一般的单时间图像更困难 2？成对注释非常昂贵且耗时。因此，本节重点介绍现有变化检测遇到的问题，最后简要介绍一下我们受到启发的异常检测领域。

2.1. Supervised Change Detection (SCD)

监督变化检测主要分为仅使用单一时间信息的方法和执行时间信息建模或不同建模的方法[33]。一种仅使用单一时间信息的变化检测器，称为分类后比较 (PCC)，在训练期间训练语义分割模型 [33, 34]。之后，语义分割模型在推理过程中通过对预测来自两个不同时间的图像得到的结果进行异或运算来预测变化区域。 PCC 的一大优点是不需要配准对图像，但是这种方法只是简单地将变化检测任务视为语义分割任务，而忽略了时间信息建模，从而显着降低了性能。为了解决这个问题，提出了变化检测方法 [5, 11]，用于在同一区域的不同时间拍摄的成对图像之间的时间信息建模。所有这些方法都实现了高性能，但由于变化检测基准数据集的规模较小，无法保证这些模型的泛化性能 [1, 4, 7-9, 12, 18, 19, 27]。变化检测基准数据集较小的原因是收集双时相对图像比收集单时相图像要困难得多，而且成对标注非常昂贵且耗时。

由于我们提出的 CDRL 仅使用未标记的单时间单源图像执行 UCD，它可以缓解收集双时间对图像的问题以及标记的成本和耗时问题。

2.2. Unsupervised Change Detection (UCD)

UCD 通常分为基于变化向量分析 [23] (CVA) 概念的方法 [3,16,26,30] 或基于生成对抗网络 (GAN) 的方法 [25]，使用未标记的双时间对图像。然而，因为他们使用预训练的权重，没有直接在数据集上训练，所以性能很低，或者需要大规模的未标记双时间对图像来训练 GAN 模型。

我们提出的 CDRL 可以在不变的区域上进行显式训练，并且可以在没有双时间对图像的情况下进行训练。

2.3. Unsupervised Anomaly Detection 无监督异常检测

我们受到启发的异常检测研究是一种基于重建的方法 [2, 24]。基于重建的方法通常利用自动编码器或生成对抗网络等生成模型来编码和重建正常数据。这些方法认为异常无法重建，因为它们在训练样本中不存在。这些无监督异常检测方法在各种基准数据集 [2] 中实现了超过 95 的 AUROC 性能，即使没有明确训练异常数据。我们还应用了这样一个事实，即在训练期间只训练未更改的对（正常）图像，例如这种基于重建的异常检测，并且当在推理过程中输入更改的对（异常）时，重建损失很高。

3. Method

本节详细介绍 CDRL 的组件。首先，训练管道将在第 2 节中简要描述。 3.1，然后，将在 Sec. 中描述基于单时间单源图像执行光度变换的方法。 3.2.秒。 3.3 描述了接收对图像并被训练为目标是重建原始源图像。最后，秒。 3.4 描述了包括 GAN 模型在内的 CDRL 的整个目标函数

3.1 整体管道

CDRL 执行光度变换以创建一对图像作为单时间单源图像。简单规则（如亮度控制和通道洗牌）的光度增强并不能充分表达实际未更改区域中相应双时间对图像的风格变化。因此，为了表达现实世界不变区域的相应双时间对图像的风格变化，我们使用 CycleGAN [35] 通过风格转移进行光度变换。

之后，生成的如图 2 所示的对图像在训练期间输入到基于 U-Net 的原始源图像重建器。为了我们的目的，要针对发生变化的区域训练具有高重建损失的原始源图像重建器，我们需要注意原始源图像中的通道信息，并注意光度变换图像中的空间信息.为了达到这个目的，我们使用 CBAM [29] 将空间注意力应用于光度变换图像，并将通道注意力应用于原始源图像。

尽管做出了这些努力，但原始源图像重建器在训练过程中存在过拟合原始源图像的问题。因此，为了防止过拟合，我们制作了一个鉴别器，并用图像重建器进行了对抗性训练。

3.2.光度变换

用于训练 CDRL 的光度变换的目的是创建自然的风格变化，同时保持结构像实际未更改的双时间对图像一样作为单时间单源图像。为了达到这个目的，我们采用了 CycleGan [35]，它接收未配对的图像并在保持结构的同时改变样式。在现有的 CycleGan 中，当有两个域 {x1, x2, ..., xn} ∈ X 和 {y1, y2, ..., yn}∈ Y 时，它接收两个样本 xi 和 yj 并训练优化两个映射函数 G : X → Y , F : Y → X 的参数。然而，由于我们需要在一个域中执行不成对的风格迁移，我们训练一个映射两个随机选择的样本 xt1i ∈ X t1 和 xt2i ∈ X 的函数t2 在一个域 X 中。因此，当存在映射函数 G : X t1→ X t2 的判别器 Dt2 和 F : X t2→ X t1 的判别器 Dt1 时，我们的目标函数如下：

其中λ控制两个目标的相对重要性。

3.3.基于对图像的源图像重构器

基于对图像的源图像重建器 R(.) 被训练以通过接收先前在第 2 节中创建的伪未更改对图像 X t1，X t2 来重建 X t1。 3.2 作为输入。为了达到这个目的，基于对图像的源图像重建器由一个共享的编码器和一个解码器组成，解码器连接和融合从编码器输出的对图像的每个特征图。 R 被训练以优化目标函数，如下所示：

其中 M AE 是重建图像和源图像之间的平均绝对误差。

在训练期间仅在伪未更改对图像上训练的源图像重建器在推理期间接收到更改的对图像时应该具有较高的重建损失。然而，如果源图像重建器仅依赖源图像的结构信息来重建而不考虑光度变换图像，则即使输入改变的对图像，重建损失也很低。为了缓解这个问题，我们修改了 CBAM 结构，对光度变换图像执行空间注意，对原始源图像执行通道注意。通过这个过程，通过关注光度变换图像的结构信息和关注源图像中的风格信息来训练源图像重建器。图 3 显示了我们从 CBAM 结构修改的注意力结构。如图所示，对X t1 图像进行通道注意，对X t2 图像进行空间注意，然后将其相加并连接起来进行训练。

3.4.用于详细结构重建的 GAN

如[17]研究中，如果只使用M LE loss，重建图像并不能很好地重建结构，并且是模糊的。如果重建结果模糊，CDRL 的性能就会下降，因为它对结构变化不敏感。因此，我们使用[17]中的GAN来解决这个问题。因此，给定判别器 Dr，判别器的目标函数为：

其中 R 尝试重建看起来与来自 X t1 的图像相似的图像 R(X t1, X t2)，而 Dr 旨在区分翻译后的样本 R(X t1, X t2) 和原始源图像 X t1i 。 R 旨在最小化这个目标，对抗试图最大化它的对手 Dr，即 minRmaxDr L(R, Dr, X t1, X t2)。

结合了 GAN 损失和 MAE 损失的源图像重建器的最终目标函数是

其中λ控制两个目标的相对重要性。我们在所有实验中使用 λ 作为 100。

4.2. Loss Analysis Results

我们计划了一个损失分析实验来检查源图像重建器在结构变化很大的部分是否存在高重建损失。

我们将数据集分为不变、小变化（变化的部分小于总图像的 30%）和大变化，如图 4 所示。当根据这些标准分割数据集时，LEVIR-CD 数据集为分成 8 个不变对、35 个小变化对和 21 个大变化对对。 WHU 数据集分为 377 个不变对、145 个小变化对和 138 个大变化对。

表 1 显示了 CDRL 在 LEVIR-CD 测试数据集和 WHU 测试数据集中的损失分析结果。如表所示，在 LEVIR-CD 数据集和 WHU 数据集中，未变化对的损失最低，而大变化对的损失最高。这些实验结果表明，当在测试期间输入具有较大结构变化的对时，源图像重建器不擅长重建源图像，因为在训练期间只输入了伪不变的对，正如我们预期的那样。此外，未更改对的损失较低这一事实表明，我们的伪未更改对的生成水平与实际未更改对的水平相似。

但是，如果源图像重建器按照我们的预期完美工作，那么当输入未更改的对时，重建损失应该接近于 0。如表1所示，未改变的对损失最低，但值不小。原因是 LEVIR-CD 数据集和 WHU 数据集被标记为只是建筑的变化，实际上，不变的对包括许多结构变化，例如土地变成湖泊、不存在的道路和汽车。更详细的分析结果将在 Sec. 中以示例进行描述。 4.5.

4.3.像素级变化检测结果

我们比较并分析了 CDRL 与其他 UCD 和 SCD 方法的性能。为了将我们的 CDRL 与现有的 UCD 方法进行比较，我们复制了所有 [10,21,21] 方法并在 LEVIR-CD 和武汉。如表 2 所示，现有的 UCD 方法具有高召回值和低精度，因为预测结果非常嘈杂并且容易受到小的结构变化的影响。这些实验结果表明，我们的 CDRL 对小的结构变化和风格变化都具有鲁棒性。

然而，与最先进的监督变化检测 BIT 相比，CDRL 的性能由于差距较大而较低。这个原因主要分析两个原因。首先，与有监督的变化检测不同，CDRL 不会显式地学习像素级变化区域，因此它只能定位近似位置。因此，与 BIT 相比，我们的 CDRL 具有相似的召回值，但精度明显较低。其次，有监督的变化检测可以根据感兴趣的变化对象的信息进行显式训练，因此它可以显式地了解汽车被创建或湖泊被更改为未更改，但我们的 CDRL 预测它们都已更改。

4.4.补丁级别更改检测结果

许多使用变化检测器的实际应用程序不仅仅依赖于变化检测器。在这些情况下，变化检测器的作用是通过提供数百个斑块中发生变化的斑块或区域的信息来降低人类的劳动强度。考虑到这种应用情况，我们尝试用补丁级分类来解决变化检测。

表 3 显示了我们的 CDRL 在 LEVIR-CD 数据集和 WHU 数据集中的补丁级别变化检测结果。如表所示，尽管仅使用单时单，但在两个数据集中都实现了高 AUC

5. 讨论和未来工作

在我们的工作中，我们只使用未标记的单时间单源图像进行了变化检测，其中源图像重建损失。但是，我们感兴趣的语义变化可以以多种方式存在，例如建筑物、季节、汽车和树木。 CDRL 的前提是无论风格如何变化，在发生结构变化的部分都使重构损失显得很高。然而，我们感兴趣的语义变化可以是多种多样的，例如自然风景、人造物体、天气和环境变化。因此，在未来的工作中，基于 CDRL 在 UCD 中具有显着性能提升的事实，我们计划研究半监督变化检测以有效检测感兴趣的变化（特定对象的变化）

6.结论

在本文中，为了解决难以构建包含语义变化的双时间对数据集的问题，我们提出了一种仅使用单时间单源图像执行无监督变化检测的 CDRL。为了将无监督变化检测问题解决为基于重构的无监督异常检测问题，CDRL 将正常数据定义为未更改对，将异常数据定义为更改对。此后，提出了一种接收对图像的变化检测器（重构器）。我们在 WHU 和 LEVIR-CD 数据集上验证了 CDRL，尽管使用单时间单源图像进行无监督变化检测，但仍取得了显着的性能。我们希望 CDRL 能够广泛应用于难以获得标记的双时间对图像的实际场景中。