高质量的超高分辨率图像分割(论文简读)

code: https://github.com/dvlab-research/Entity

在这里插入图片描述

1 abstract

分割4K或6K超高分辨率图像在图像分割中需要额外的计算。常见的策略,如降采样、斑块裁剪和级联模型,都不能很好地解决精度和计算成本之间的平衡问题。基于人类从粗糙到精确水平连续区分对象,我们提出了连续细化模型(CRM)用于超高分辨率分割细化任务。CRM不断地将特征图与细化目标对齐,并聚合特征来重建这些图像的细节。此外,我们的CRM显示了其显著的泛化能力,以填补低分辨率训练图像和超高分辨率测试图像之间的分辨率差距。我们提出了定量的性能评估和可视化,以表明我们提出的方法是快速和有效的图像分割细化。

2 Introduction

随着相机和显示设备的快速发展,图像的分辨率越来越高,其中4K和6K的分辨率变得越来越普遍。它在肖像照片的后处理、工业缺陷检测、医学诊断等方面提供了不同的机会。然而,超高分辨率的图像也给经典的图像分割方法带来了挑战。首先,大量的输入像素是计算昂贵和GPU内存消耗。其次,大多数现有的方法通过插值[5,44,47,50,51]对最终的预测进行上采样4到8次,而没有在输出掩码上构建细粒度的细节。

以往的分割细化方法包括[18,22,27,48]的分割细化方法。它们仍然瞄准的目标是1K∼2K分辨率的图像。[9,42]的工作是处理基于经典分割算法生成的低分辨率掩模的超高分辨率细化。他们利用级联-(a)PSPNet(b)级联PSP©CRM图1。粗掩码细化结果。来自PSP[50]的(a)粗糙掩模,最先进的[9]的(b)改进掩模,以及我们提出的CRM的©改进掩模。图像来自BIG(2K∼6Kres)。方案在解码器的上采样中间细化结果在几个分辨率阶段,直到达到目标分辨率。由于以离散的方式处理解码器的预定义分辨率阶段,它们仍然很耗时。相反,我们考虑连续性,以使解码更有效和更友好的学习上采样分辨率。我们提出了连续细化模型(CRM)来利用连续性。

粗掩模来自于低分辨率的分割。为了进一步扩展它,这个问题类似于经典的超分辨率(SR)任务。除了经典的SR方法外,还提出了构造连续局部表示的[7]。我们注意到,利用隐式函数[31]来处理高分辨率的分割细化并不简单。首先,在我们的任务中,训练图像的分辨率约为500,而SR的训练图像的分辨率为2K。对SR进行下采样的训练策略会使我们的输入掩模变得小而无意义。其次,与超分辨率配置相比,需要更多的多层次语义特征。第三,在低分辨率训练和超高分辨率测试之间存在着分辨率差距。因此,这个任务需要具体的设计。

为了实现超高分辨率分割细化的连续性,我们首先提出了连续对齐模块(CAM)来对特征和细化目标进行连续对齐(不同于解码器中的级联方案)。在CAM中,特征和细化目标的坐标转移到连续空间中。然后,我们根据连续的坐标来对齐位置和特征。一个隐式函数结合位置信息和对齐的潜在图像特征来预测图像上查询的像素的分割标签。在这里,像素级隐式函数对连续位置与预测之间的关系进行了建模,并通过潜在特征实现了图像感知的细化。总的来说,该设计比基于级联的解码器更简单、更轻,但生成了更精确的细化掩模,如图1所示。

此外,低分辨率训练图像和超高分辨率测试图像之间存在分辨率差距。在基于级联解码器的方法[9,42]中,卷积在训练分辨率下总是覆盖一个固定大小的邻域补丁,从而降低了其对其他测试分辨率的泛化。然而,CRM中的隐式函数是在像素级提取的特征中,没有这种偏差。此外,在我们的多分辨率推理策略中,首先要推断出低分辨率的输入。然后,我们增加输入分辨率,以在细化的掩模中生成更多的细节。采用多分辨率推理策略,CRM实现了比以往方法[9]更强的泛化能力。在实验中,我们的CRM获得了更好的性能,在超高分辨率分割细化任务中推断的速度是以前的先进方法的两倍多。

论文的贡献:

  • 我们提出了一个通用的连续细化模型(CRM)。在超高分辨率分割细化中,引入了一种利用连续位置信息和连续对齐潜在图像特征的隐式函数。在没有基于级联的解码器的情况下,我们有效地降低了计算成本,同时重建了更多的细节。具有多分辨率推理的
  • CRM适用于使用低分辨率训练图像和超高分辨率测试图像。由于设计简单,即使从低分辨率细化到高分辨率,总推理时间也不到CascadePSP[9]的一半。
  • 在实验中,CRM对超高分辨率图像的分割效果最好。它还有助于提高性能的最先进的全景分割模型没有微调。

3 Proposed Method

本节首先描述了连续细化模型(CRM)的一般框架,然后说明了连续对齐模块(CAM)和下面的隐式函数。最后,我们引入了相应的推理策略来利用超高分辨率的连续性。

3.1 General Framework

在这里插入图片描述
在这里插入图片描述

3.2 Continuous Alignment Module

经过图像编码器后,编码特征的大小小于细化目标。中间特征或细化的结果需要逐步上采样到后期阶段。在之前的超高分辨率图像分割工作中,级联方案似乎是解码器不可或缺的一部分。虽然新的设计减轻了在特定分辨率下的上采样后的信息损害,但整个过程很难恢复更多的细节。

我们注意到,在具有预定义的上采样率的基于级联的解码器中的离散方式可以被视为上采样的约束条件,限制了进一步的改进和降低了通用性。此外,它还增加了整个框架的复杂性,如图2所示。我们提出的连续对齐模块(CAM)利用位置信息和特征对齐来对连续深度特征进行建模

位置信息P参考nerf-系列[31,45,53],位置信息是隐式函数的基本输入。将细化目标Ct的坐标投影到特征映射坐标Cf上。该操作为不同分辨率的特征图和各种所需的推理分辨率上的像素创建连续坐标,如3.4节所示。

绝对坐标可能随图像和特征大小而变化。为了使我们的CRM适用于任意大小的图像,Ct和Cf被归一化到一定的范围[−1,1]。投影后,Ct上的点与Cf上对应的最近点之间的偏移量记为Cr。在图3中,Cri、j表示位置(i、j)上的偏移量(蓝色箭头)。相对目标坐标偏移量Cr、特征与目标[7]的比值r、细化目标位置Ct形成位置信息P为

连续位置信息是CRM连续性的基础。

Continuous Feature Alignment

与SR[7]中的连续分辨率转换相比,方程中Eθ的Faltey需要通过融合全局-局部信息来增强分割细化任务。为简单起见,fate包括增强。细化目标位置Ct也可以看作是一个全局特征。然后,与位置信息相同,我们将细化目标中的每个像素与Falter对齐。连续特征变化。通过连接位置信息P和对齐的Flatty建立,如等式所示 (2).

因此,与离散分辨率转换相比,CAM上采样的特征是连续的。离散预定义的上采样比降低了学习难度,但限制了上采样过程。OutCAM在这方面具有更大的自由度,这意味着更大的优化空间和更高的性能潜力。第二秒中的多分辨率推理。3.4充分发挥了CAM的连续性的优势。

3.3 Implicit Function in CRM

在CAM之后,隐式函数Dφ取Fcont。作为输入。利用隐式函数的原因是它处理连续坐标和重建细节[7,31,45,53]的能力令人印象深刻。

目标细化掩模上的查询点(图3中蓝色点)可记为x(ij),其中(ij)为其未归一化位置。首先,我们在目标细化掩模上找到它的邻居点yk,k∈{1,2,3,4}(图3上的绿点),其位置为(i±1,j±1)。接下来,在对齐的特征图上选择yk的最近点,记为zk(图3中的红色点)。用zk作为x的支撑点,用N(x)表示。然后我们输入zk的特征向量Fcont。(zk)到隐式函数Dφ。最后,我们聚合了隐式函数的输出。聚合权值,即面积值wzk,由等式中的相对坐标偏移量Cr计算得出 (3).聚合的输出是对(i、j)的最终预测结果。

回到这个章节,CRM和CascadePSP[9]之间的主要区别在于解码器部分。以四个相邻的点为例。CRM利用MLP和简化平均,而不是2×2卷积。因此,CRM的特征空间的维数更大。如果这四个点都属于同一类,那么影响就不是很大。然而,对于边界区域,其中4个点属于不同的类,较大的特征空间总是提供更可区分的特征进行分类。从这个角度来看,我们可以给出一些关于CRM具有更强的边界区域表示和预测更好的细节的提示。

3.4 Training and Inference Strategy

LIIF[7]提出了一个具有隐式函数的SR的优雅解。它有2K幅图像作为地面真实值,并生成任何低分辨率的图像作为输入。具有精确分割注释的超高分辨率图像太少了,无法进行训练。此外,高分辨率的训练直接受到GPU内存和批处理大小的限制。

对于训练中的低分辨率(300∼1K)和测试中的超高分辨率(2K∼6K)之间的分辨率差距,我们提出了多分辨率推理来利用CRM的连续P和对齐的Fcont。完全地图3的下方为分辨率对比度。由于CAM的连续特性,对于一幅图像,我们可以从多分辨率输入Ri(Ii粗)细化生成相同目标超高分辨率Mi的输出。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>