Disentangling Structure and Aesthetics for Style-Aware Image Completion

一种基于AIC的图像修复方法,考虑图片的结构信息和视觉风格信息来选取patches 并且对其进行自适应风格化,从而提高图像修复效果。

  • 定义图片的结构和艺术风格的计算标准
  • 通过视觉搜索(visual search)从数据集和获取候选补丁集合
  • 定义能力函数,使用MRF算法在候选补丁集合上迭代,获取所选补丁集合
  • 对所选补丁集合进行NST转化,得到自适应风格的补丁集合
  • 使用梯度域混合算法将自适应风格的补丁集合合并到待修复图片上

论文:Disentangling Structure and Aesthetics for Style-Aware Image Completion


Style-aware Image Completion

Disentangling Patch Structure and Aesthetics

使用两个三元组卷积神经网络进行特征嵌入(style embedding & structure embedding)。

{gs(p),gz(p)}

p 表示一个图片补丁。

gs 学习图片内容语义不变的情况下的美术风格相似度

gz 学习风格不变下的结构相似度

这两个神经网络使用同构设计,包含所有分支的GoogLeNet骨干,且pool5层之后附加了一个共享所有权重的低维度(128-D)瓶颈层。特征嵌入在瓶颈层获取。

style embedding

由于需要在多种分辨率上挑选并风格化补丁,所以需要能使用多规模下的特征嵌入。学习一组style embeddings

S={gls},l=[0,L]

这组 style embedding 表示方形补丁小的半个八度音程(half-octave)间隔,从40像素到60像素。

我们通过判别(softmax)损失从头开始训练每种风格,作为给定一组手工标注样式类别的艺术图片和照片的分类器。

数据集:从BAM!中随机选取的88千张图片,包含了8中风格:水彩、矢量艺术(vectorart)、3D、石墨、铅笔画、优化、漫画、照片。

对风格网络使用三重损失硬负采矿(hard negative mining)进行微调,三次损失分别为 anchar α 、含有相同艺术风格不同物体内容的正分支 p、含有不同艺术风格和相似物体的负分支 n

损失函数 ζ 为:

ζ(α,p,n)=[m+|gls(α)gls(p)|]2|gls(α)gls(n)|2]+

m=0.2 为与收敛相关的参数,[x]+ 是向上取整,

structure embedding

艺术风格不变下的结构嵌入 gz(.) 即是structure embedding。计算与style embedding相似,不同之处为正分支负分支与其相反。

且数据集不同,由于目前的BAM!只包含9个语义类别注释,为了促进对艺术作品的语义概括,网络在更广泛的数据集上受到进一步的微调阶段,该数据集来自Behance网站(从中衍生出BAM)

Patch Aggregation and Selection

Style and Structure aware Retrieval

数据集:Behanec(一个创意专业人士的网站)上的 66.8M 张用户产生的图片

每张图片根据 gzg0s 计算一个描述符

I(d)=PQ([gz(d)g0s(d)],B)

PQ(.) 代表产品量化[11]。使用PQ扩张数据集的图片,基于k-NN||I(s)I(d)||2 上搜索返回前200张图片得到检索结果,即候选补丁集合,记为P。

Patch Selection over Learned Embeddings

将图片上缺块划分为网格,每个格子与其邻居的一般重叠。将填充缺块视为标签问题。使用MRF优化算法从候选补丁集合P中选择最优子集合。该优化算法能平衡补丁的选择来最小化内容结构、风格、外观(空间连贯性),从而最小化能量函数 E

E(X)=iμψz(pi)+1Niiν,jNiψij(pi,pj)+iνψs(pi)

ν={ν1,..,νn} 为对应的所有网格的集合。 piP 表示第 ith 个网格 νi 的补丁标签。Ni 为网格 νi 四周的邻居网格集合。

ψz(pi)=||gz(pi)gz(s)||2

一元函数 ψz(pi) 表示补丁 pi 与原图之间的结构偏差,使用 L2 距离表示。

二元函数 ψij(pi,pj) 测量与邻居网格之间的空间连贯性,通过补丁重叠部分的像素值的平方差之和表示。[23]

ψs(pi)=|gls(pi)gls(s)|+1NipjNi|gls(pi)gls(pj)|

第三项 ψs(pi) 用于促进图片局部的风格连贯性,使用含style embedding 的 L2 距离表示。

所以最小化能力函数 E(X) 表示促进各个边缘信息的空间连贯性(第二项)和局部风格连贯性(第三项),确保局部语义分布的相似性(第一项)。

能力函数与[15]相似,也具有采取补丁的加权平均的一元潜力形式

E(X)=i,jν(ψz(pi)+ψz(pi,pj))+iν,jNi(ψij(pi,pj))

MRF 在多规模 l=[0,L]迭代求解的,规模与style embeddings gls(.)集合对应。

Adaptive Patch Stylization

本文中的算法在将所选补丁集合 X 合并入原图 s 前,对补丁集合进行自适应的风格化。采用神经风格转化NST[7]。抽取补丁的结构描述符 χz(pi) 和风格描述符 χs(pi) 。计算修正后的补丁 pi ,其中 χs(p)χs(s),且 χz(p)χz(pi) ,即风格和原图相似,结构与原补丁相似。其风格的一致性是由MRF的第三项驱动的:

ζsty(pi)=|χz(pi)χz(pi)|αeψs(pi)|χz(pi)χz(s)|

α=105 是平衡结构和风格的规模标准化术语。pi 的初始化是 p 加上高斯噪声 、损失项 ζssy ,并且通过 ADAM 最小化。

根据[7] χz(.) 是通过训练前的VGG-19采样conv_4层的forward-pass 来获取的,χs(.) 通过粗风格嵌入 g0s(.)

因此风格化的 “强度” 被由MRF优化算法决定的风格相似度所控制。风格化后的补丁通过梯度域混合算法[21] 组合到原图 s

最后风格化的补丁(stylized patches)使用梯度域混合算法[21] 组合到图片中。

Experiments and Discussion

数据集:Places2 [32],通常用来修复图片的数据集;采样自BAM!数据集的修复图片的数据集 [30]

评价因子:主观的用户研究、SSIM [27]、SWD [13]

比较对象:PatchMatch [1],Image Melding [3],Million Image [8],ContextEncoder [20]

实验结果:实验结果表明,在SSIM和SWD指标中本文的方法效果明显优于其他对比算法,且在算法的耗时方面也具有明显优势。并且还进行了消融实验,验证了本算法中图像结构化因素、风格因素以及自适应风格化三者各自的独立有效性。

0%