[半监督学习] Deep Co-Training for Semi-Supervised Image Recognition

admin • 2022-02-21 08:11 • 人工智能

在监督学习领域, 深度神经网络在许多任务中已经取得了先进水平, 因此将其引入半监督学习, 并结合 Co-Training 思想, 用于处理半监督图像分类问题.

论文地址: Deep Co-Training for Semi-SupervisedImage Recognition
代码地址: https://github.com/AlanChou/Deep-Co-Training-for-Semi-Supervised-Image-Recognition
会议: ECCV 2018
任务: 分类

Co-Training 假设

∪

mathcal{D}=mathcal{S} cup mathcal{U}

$D = S \cup U$ 中的每个数据

$x$ 有两个视图, 即

(

)

x = (v_1, v_2)

$x = (v_{1}, v_{2})$ , 每个视图

v_i

$v_{i}$ 都足以学习一个有效的模型. 其中

mathcal{S}

$S$ ,

mathcal{U}

$U$ 分别表示标记数据集和未标记数据集. 给定

mathcal{D}

$D$ 的分布

mathcal{X}

$X$ , Co-Training 假设表示如下:

(

)

(

)

(

)

∀

(

)

∼

f(x)=f_1(v_1)=f_2(v_2),forall x=(v_1,v_2) simmathcal{X}

$f (x) = f_{1} (v_{1}) = f_{2} (v_{2}), \forall x = (v_{1}, v_{2}) \sim X$
即对于在每个视图

v_i

$v_{i}$ 上训练的模型

f_i

$f_{i}$ , 都有一致的输出, 每个模型都能做出正确的预测. 在给定类标签的情况下, 两个视图条件独立. 基于这个假设, Co-Training 训练简述如下: 首先为

mathcal{S}

$S$ 上的每个视图学习一个单独的分类器, 然后将两个分类器对

mathcal{U}

$U$ 的预测逐渐加到

mathcal{S}

$S$ 上继续进行训练.

将 Co-Training 扩展到深度神经网络中, 一个简单的办法是在

mathcal{D}

$D$ 上训练两个神经网络, 但是这种方法有两个严重的缺点:

不能保证两个网络的视图是不同和互补的.
协同训练会使得两个网络在训练过程中趋于一致, 即 collapsed neural networks 现象.

基于此, 提出 Deep Co-Training(DCT), 通过最小化两个网络在

mathcal{U}

$U$ 上的预测之间的 JS 散度来模拟 Co-Training 假设. 为了避免 collapsed neural networks, 通过训练对抗样本来施加视图差异约束(View Diﬀerence Constraint).

Deep Co-Training 算法

Co-Training Assumption in DCT

在 DCT 中,

(

)

v_1(x)

$v_{1} (x)$ 和

(

)

v_2(x)

$v_{2} (x)$ 是

$x$ 在最终全连接层

(

⋅

)

f_i(·)

$f_{i} (\cdot)$ 之前的卷积表示. 在标记数据集

mathcal{S}

$S$ 上的标准交叉熵损失函数定义为:

(

)

(

)

(

)

mathcal{L}_{mathrm{sup}}(x,y)=H(y,f_1(v_1(x)))+H(y,f_2(v_2(x)))

$L_{s u p} (x, y) = H (y, f_{1} (v_{1} (x))) + H (y, f_{2} (v_{2} (x)))$
其中

(

)

H(p,q)

$H (p, q)$ 表示交叉熵. 而对于未标记数据集

mathcal{U}

$U$ , 基于 Co-Training 假设, 期望

(

)

f_1(v_1(x))

$f_{1} (v_{1} (x))$ 和

(

)

f_2(v_2(x))

$f_{2} (v_{2} (x))$ 有相似的预测, 使用 JS 散度来进行

(

)

f_1(v_1(x))

$f_{1} (v_{1} (x))$ 和

(

)

f_2(v_2(x))

$f_{2} (v_{2} (x))$ 之间的相似性度量, 损失函数定义如下:

(

)

(

)

(

)

−

(

)

(

)

mathcal{L}_{mathrm{cot}}(x)=H(frac{1}{2}(f_1(v_1(x))+f_2(v_2(x))))-frac{1}{2}(H(f_1(v_1(x)))+H(f_2(v_2(x))))

$L_{c o t} (x) = H (\frac{1}{2} (f_{1} (v_{1} (x)) + f_{2} (v_{2} (x)))) - \frac{1}{2} (H (f_{1} (v_{1} (x))) + H (f_{2} (v_{2} (x))))$
其中

(

)

H(p)

$H (p)$ 表示

$p$ 的熵.

View Diﬀerence Constraint in DCT

利用

(

)

g(x)

$g (x)$ 从

mathcal{D}

$D$ 中生成对抗样本数据集

′

mathcal{D}'

$D^{'}$ , 在

′

mathcal{D}'

$D^{'}$ 中

(

)

≠

(

)

f_1(v_1(g(x))) neq f_2(v_2(g(x)))

$f_{1} (v_{1} (g (x))) \neq = f_{2} (v_{2} (g (x)))$ . 希望

(

)

g(x)

$g (x)$ 与

$x$ 之间足够小, 以便于对抗样本还能保持自然的图像特征. 不过当

(

)

−

g(x)-x

$g (x) - x$ 很小时, 有很大概率会出现

(

)

(

)

f_1(v_1(g(x))=f_1(v_1(x))

$f_{1} (v_{1} (g (x)) = f_{1} (v_{1} (x))$ 和

(

)

(

)

f_2(v_2(g(x))=f_2(v_2(x))

$f_{2} (v_{2} (g (x)) = f_{2} (v_{2} (x))$ , 这就与我们的想法违背. 即希望当

(

)

(

)

f_1(v_1(g(x))=f_1(v_1(x))

$f_{1} (v_{1} (g (x)) = f_{1} (v_{1} (x))$ 出现时, 需满足

(

)

≠

(

)

f_2(v_2(g(x))neq f_2(v_2(x))

$f_{2} (v_{2} (g (x)) \neq = f_{2} (v_{2} (x))$ .

通过交叉熵来训练网络

f_1

$f_{1}$ ,

f_2

$f_{2}$ , 使得可以抵抗相互的对抗示例:

(

)

(

)

(

)

(

)

(

)

mathcal{L}_{mathrm{dif}}(x)=H(f_1(v_1(x)), f_2(v_2(g_1(x))))+H(f_1(v_1(g_2(x))), f_2(v_2(x)))

$L_{d i f} (x) = H (f_{1} (v_{1} (x)), f_{2} (v_{2} (g_{1} (x)))) + H (f_{1} (v_{1} (g_{2} (x))), f_{2} (v_{2} (x)))$
其他文献中, 使用对抗技术可以作为正则化技术来平滑输出, 如 VAT. 或者创建负示例来收紧决策边界.

最终的损失函数定义为:

(

)

∈

(

)

∈

(

)

∈

(

)

mathcal{L}=mathbb{E}_{(x,y)inmathcal{S}}mathcal{L}_{mathrm{sup}}(x,y)+lambda_{mathrm{cot}}mathbb{E}_{xinmathcal{U}}mathcal{L}_{mathrm{cot}}(x)+lambda_{mathrm{dif}}mathbb{E}_{xinmathcal{D}}mathcal{L}_{mathrm{dif}}(x)

$L = E_{(x, y) \in S} L_{s u p} (x, y) + λ_{c o t} E_{x \in U} L_{c o t} (x) + λ_{d i f} E_{x \in D} L_{d i f} (x)$

DCT 训练迭代过程

在 DCT 训练循环的每次迭代中, 两个神经网络

p_1

$p_{1}$ ,

p_2

$p_{2}$ 接收不同的标记数据

(

)

(x_{b_1},y_{b_1})

$(x_{b_{1}}, y_{b_{1}})$ ,

(

)

(x_{b_2},y_{b_2})

$(x_{b_{2}}, y_{b_{2}})$ . 通过 FGSM 分别生成对抗样本

(

∪

)

g_1(x_{b_1} cup x_u)

$g_{1} (x_{b_{1}} \cup x_{u})$ ,

(

∪

)

g_2(x_{b_2} cup x_u)

$g_{2} (x_{b_{2}} \cup x_{u})$ . 使用梯度下降计算

mathcal{L}

$L$ , 并更新

p_1

$p_{1}$ ,

p_2

$p_{2}$ 的参数.

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

THE END

人工智能机器学习深度学习计算机视觉

二维码

yolact推理环境搭建

< <上一篇

推荐算法架构1：召回

下一篇>>

搜索内容

[半监督学习] Deep Co-Training for Semi-Supervised Image Recognition

Deep Co-Training 算法

Co-Training Assumption in DCT

View Diﬀerence Constraint in DCT

DCT 训练迭代过程

最新文章

分类

标签云