Feature Super-Resolution: Make Machine See More Clearly

本文提出 Feature Super-Resolution 概念,基于 GAN 实现了图像特征的超像素还原。提高了机器对低分辨率图像的鉴别能力,能有效改善基于低分辨率的计算机应用,如图像检索。

论文:Feature Super-Resolution: Make Machine See More Clearly


Intro

Effect of Down-scaling Operation

使用 VGG16 模型和 Oxford5K 数据集来评估缩小操作对 深层表示 (the deep representations) 的影响。

通过计算高分辨率和低分辨率图像的深层特征 (deep features) 之间的欧式距离均值,来衡量影响,有以下结果

  • 随着缩小率的增大,其深层特征之间的距离均值变大

使用低分辨率图像进行图像检索实验,评估使用速度特征时低分辨率对匹配、检索的影响,得到结果

  • 随着缩小率的增大,检索精度 (mAP) 急剧下降

为了了解不同分辨率图像深层特征之间的关系,计算同一缩小率下欧式距离的方差,得到结果

  • 不同缩小率内的欧式距离方差的相近的。推出结论,深度特征的变化依赖于丢失的信息,而非特定的图像内容

基于以上观察,提出 Feature Super-Resolution Generative Adversarial Network ( FSR-GAN ) 模型,以提高机器对该图像的鉴别鉴别力。

以低分辨率图像特征为基础,生成还原高分辨率图像的特征。而非在低分辨率图像特征基础上进一步提取深层特征。因为是一个对特征的“还原操作”,所以类似于图像超分辨

The Method (FSR-GAN)

FSR-GAN 包含两个子网络,特征生产网络 $G$ 和 特征鉴别网络 $D$ 。

$G$ 为 CNN,输入低分辨率图像特征 $F^{LR}$,输出超分辨率图像特征 $F^{SL}$ ,学习的是低分辨率图像特征 $F^{LR}$ 和高分辨率图像特征 $F^{HR}$ 之间的关系。

$D$ 也是一个 CNN,输入图像特征,判断该特征属于 超分辨率特征 $F^{SR}$ 还是 高分辨率特征 $F^{HR}$。

与传统 GAN 不同的时,本文提出了一个 focal loss 用于强化对高缩小率样本的学习

本文使用下采样生产低分辨率图像,使用 VGG16 模型进行原始图像特征的提取,可表示为

Focal Loss Function

原始的 GAN 网络中生产网络和鉴别网络的损失函数为

其缺陷在于分类器效果越好的时候,生成器会出现严重的梯度消失。WGAN 对此进行了改进,提出了以下损失函数

本文中直接使用 WGAN 不能得到良好的效果,进而使用均方误差 MSE 强化对生成网络的约束条件,得到如下生成网络损失函数

上式损失函数未考虑样本的不均衡性,即高缩小率原本对网络的影响应该比低缩小率样本的高。鉴于论文 14 14 的 focal cross entropy loss ,得到 focal loss

其中 $r$ 为 focal loss 的权重。实验显示,$r$ 取值 2 的时候,$F^{SR}$ 和 $F^{HR}$ 之间的距离最小。

Implementations

特征生成网络:

typekernel sizestridechanneloutput size
convolution8 × 81464 × 64 × 4
convolution5 × 52832 × 32 × 8
convolution5 × 511632 × 32 × 16
convolution5 × 523216 × 16 × 32
convolution5 × 516416 × 16 × 64
convolution5 × 521288 × 8 × 128
dropout(70%)1 × 64 × 128
linear1 × 4096

特征鉴别网络:

typekernel sizestridechanneloutput size
convolution5 × 52832 × 32 × 8
convolution5 × 521616 × 16 × 16
convolution3 × 32328 × 8 × 32
convolution3 × 31648 × 8 × 64
linear1

两个模型中各层均采用 Leaky ReLU 作为激活函数。损失函数使用 Adam 算法优化,学习率 0.0008,focal loss 权重 $r$ 取 2 ,epoch 取 6,采用 tensorflow 框架实现。

Experimental

对比方法:ISR 方法 SRCNN 、VDSR

数据集:Oxford5K(4500训练、562评估)、 INRIA Holidays(500评估,其余的训练)、和 Paris datasets (612评估,其余的训练)。下采样率 1/4 、1/9 和 1/16

指标:欧式距离均值

结果:FSR-GAN 显著减少了低分辨率和高分辨率的表示 (the representation),且在各缩小率之间的距离比较稳定,也比相似图像和高分辨率图像的距离要小。ISR 算法只在较低缩小率下的表现比 FSR-GAN 好。

Applications

通过进行图像检索应用,测试 FSR-GAN 的强化特征表现结果。

进行了 Content Based Image Retrieval、Large-Scale Image Retrieval 和 Low Bit-Rate Mobile Visual Search应用上的测试,查询图像为下采样后再插值成 224 x 224 ( VGG16 的要求输入尺寸) 的低分辨率图像。数据集为Oxford5K 、Paris 和 INRIA Holidays。评价指标为 mean Average Precision。

Content Based Image Retrieval 和 Large-Scale Image Retrieval :

结果为 FSR-GAN 能有效提高 mAP,且在各缩小率下均有相对稳定的改善。而 ISR 方法的改善效果不明显。

在 Holidays 数据集上,低分辨率的检索甚至比原始分辨率的 mAP 有所提高。论文解释为该数据集上与每个查询关联的图像数量较少,容易导致检索精度的波动。

This phenomenon is caused by the characteristic of Holidays dataset. In Holidays dataset, the number of images associated with each query is small (about 4 images), which easily results in the fluctuation of retrieval accuracy

Low Bit-Rate Mobile Visual Search :

在 移动设备视觉检索时,由于无线网络特点,该类型检索的响应时间与传输信息量有很大关系 (传输时延)。因此减少传输信息对此很重要,所以通过下采用图像,以减少客户端与服务器之间的数据传输,并且服务端使用 FSR-GAN 还原图像特征进行图像检索。实验结果显示在不同比特率下,FSR-GAN 都显著改善了检索结果。

Annotation

focal loss: Focal Loss - AI之路 - CSDN博客

14. Object retrieval with large vocabularies and fast spatial matching - IEEE Conference Publication
0%