一种基于簇类-拟合的显著性检测优化算法,即对已有的显著性检测算法的输出结果进行结果优化的方法。
原理步骤
- 对image归类分簇
- 使用 Gist (图片场景信息) 和color histogram feature (图片颜色信息) 描述图片的相似度
- k-means 按相似度(Image similarity)对图片进行分簇
- 对各分簇计算 fitting model
- 计算原图和 ground true saliency map 的统计数据
- 根据统计数据确定 fitting model 参数,fitting model 为S型和线性函数的组合。
- 计算输入目标图片对应的簇类
- 计算 Gist 和 color histogram feature
- 根据 Image similarity 查找对应簇类
- 对 输入目标图片的 saliency map 应用所属簇的 fitting model 实现优化
- confine the saliency value generated by fitting model to legitimate value 应用 fitting model 并且调整结果到合理的区间
- 位于合理区间的结果集为优化结果 optimised saliency map
相关公式
0x01 Gist 计算
含义:表示图像的场景信息
- convert a color image to a intensity image
$i$ 是 intensity image, $(x. y)$ 表示像素位置,R、G、B各为颜色通道
- 对上式应用
离散傅里叶变化
$f_{x}$ 和 $f_{y}$ 是空间频率变量(the spatial frequency variables), $W_{1}$ 和 $W_{2}$ 分别为图片的宽高, $h(x,y)$ 是由于减少边界影响的圆形汉宁宽口(a circle Hanning window)。令$A(f_{x}, f_{y}) = |D(f_{x}, f_{y})|$ 表示傅里叶振幅谱,则其是input image 的一个高维表示。
- 使用PCA对 $A(f_{x}, f_{y})$ 降维
$\phi(f_{x}, f_{y}) = \{\phi_{t}(f_{x}, f_{y}) | t = 1, .., L\}$ 是高斯公式集合,该集合分布4种频率,每个频率8个方向上,所以 $L$ 为32。
- 令 $g = \{ g_{t} | t = 1, .. , L\}$
$g_{t}$ 分为 $4 \times 4$ 的子区域。16个子区域的均值作为输入图片的表示
- 定义Gist为 $G = \{G_{t} | t = 1, .., N_{G}\}$
$N_{G} = 512 << W_{1} \times W_{2} $ ,$512 = 32 \times 16 = (4 \times 8) \times (4 \times 4)$
0x02 color histogram feature 计算
含义:颜色直方图通过对整张图中不同颜色的比例来描述图片颜色的整体分布。
R、B、G颜色通道各使用8-bin直方图,其指为0到255。
令第 $j$ 个bin(the $j$th bin)的像素颜色值范围为 $b_{j}$
定义 $H_{i}$
$\delta\{ condition \} $ 当condition成立的时候为其值为1,否则为0,$W_{1}$ 和 $W_{1}$ 为宽高
- 定义图像 $I$ 的颜色直方图 $H$ 为
$ H = \{H_{t} | t = 1, .. N_{H}\}$, $N_{H}$ ($ = 8 \times 8 \times 8 = 512 $),即rgb三个通道,每个8-bin
0x03 Image similarity 计算
- 定义图片 $I_{i}$ 和 $I_{j}$ 的相似度为 $F(I_{i}, F_{j})$
$f_{G}(I_{i}, I_{j})$ 是Gist是相似度, $G_{ti}$ 为图 $I_{i}$ 的Gist值; $f_{H}(I_{i}, I_{j})$ 是color histogram feature是相似度, $H_{ti}$ 为图 $I_{i}$ 的Gist值。$\alpha$ 是 $f_{G}$ 的权重,本论文中取值0.7
$F(I_{i}, F_{j})$、 $f_{G}(I_{i}, I_{j})$ 和 $f_{H}(I_{i}, I_{j})$ 越小,代表图$I_{i}$、$I_{j}$ 越相似。
0x04 fitting model 计算
将显著性检测算法计算的saliency maps 的统计数据(the statistical data)作为自变量点集合
将ground true image
集合的统计数据作为因变量点集合
- 计算 the saliency maps 的
直方图
作为统计数据。定义并计算每张图的直方图 $H_{i}^{s}(v)$ 和$H_{i}^{n}(v)$
分别表示(
与 groud true saliency map $G_{i}$ 的显著(salient)区域)
对应的saliency map的区域上像素(该像素的saliency value 为 $v$)的总数,和(
与 groud true saliency map $G_{i}$ 的非显著(non-salient)区域)
对应的saliency map的区域上像素(该像素的saliency value 为 $v$)的总数。
其中$S(p)$表示像素 $p$ 的 saliency value, $G(p)$ 表示 the ground true saliency map中像素 $p$ 的值。$\delta\{ . \}$ 当其条件满足时其值为1,否则为0
- 定义并计算 $H^{s}$ 和 $H^{s}$
分别为 saliency value 为 $v$ 且对应 the ground true saliency map 是显著的像素的总数,和saliency value 为 $v$ 且对应 the ground true saliency map 是非显著的像素的总数。$|T|$ 表示 image 集合 $T$ 内的数量。
- 根据点集合计算fitting model的参数
fitting model为一条由S型和线性函数组成(sigmoid and linear)。基于直方图获得自变量和因变量的点集合,用 $(x_{i}, y_{i})$ 表达每个拟合点
$x_{i} \in \{0, 1, …, 255 \}$ 作为自变量,取自 saliency image 中的一个确定像素的 saliency value 值
$y_{i} \in \{0, 1, …, 255 \}$ 作为因变量,由与 $x_{i}$ 对应的ground true 中的像素的 saliency value 值
在像素点集合(fitting points set)中,对任一 saliency value 值 $v$ ,$(v, 255)$ 的像素点集合的size是 $H^{s}(v)$,$(v, 0)$ 的像素点集合的size是 $H^{n}(v)$
使用 S 型和线性曲线拟合 $(x_{i}, y_{i})$ 得到 fitting model
采用论文[34]
的fitting model,其有五个待定参数 $(\beta_{1} - \beta_{5})$
采用最小二乘法(least-squares)法(即最小化方差),计算待定参数:
0x05 应用 fitting model 计算 optimised saliency map
对原 saliency map 应用 fitting model 获得 optimised saliency model
使用fitting model 获取拟合后的saliency value
使用截断和最大-最小标准化法(即缩放)来控制image 到合法的数值 $[0, 255]$
若saliency value 和 $[0, 255]$ 没有交集,或者若saliency value 在 $[0, 255]$ 以内,则对 the fitted saliency values 采用截断法以获得 the final optimised saliency values。否则先使用截断法在采用标准化法来获得 the fitted saliency values。