BYOL论文精读


在这里插入图片描述

概要

本篇博客介绍了Bootstrap Your Own Latent (BYOL)方法,这是DeepMind和Imperial London提出的一种自监督学习方法。

  • BYOL 包含两个架构相同但参数不同的网络。
  • BYOL 不需要负对,而大多数对比学习方法都需要,例如SimCLR

背景

对比学习 (contrastive learning, CL)目前在自我监督学习中取得了最先进的性能。在对比学习中,从相同图像创建的视图称为正对,而来自不同图像的视图称为负对。

然而,可以有无限数量的负对,CL 需要大量的负对以确保其性能。因此,这项工作提出了一个称为 BYOL 的新框架,以消除对负对的需求。

方法

1. 概述

这个框架中有两个网络。一个名为在线模型,另一个名为目标模型。在线模型由 θ 参数化,目标模型由 ξ 参数化。两个模型具有动态行为:

  • 目标模型通过计算θ的指数移动平均值 (EMA)来更新其参数 ξ 。
  • 在线模型通过学习目标模型的参数 ξ 来更新其参数 θ。

在这里插入图片描述

2. 参数更新

我将在下面详细解释每个更新的方式:

  • ξ 由 θ 更新:这是通过计算指数移动平均线 (EMA) 完成的,其定义如下:
    在这里插入图片描述
    指数移动平均线 (EMA) 的公式。τ 是目标衰减率,τ ∈ [0,1]。假设与在某个时间序列上获得 θ 的简单平均值相比,EMA 为最近的 θ 分配了更大的权重。这可以从以下事实中看出:如果您展开右侧的 ξ,则 τ 变为 τⁿ(n 是时间步长)。随着 τ 越来越小,τⁿ 会变小,这意味着它的重要性正在衰减。

  • θ 由 ξ 更新:这是通过优化目标函数来完成的。目标函数是归一化预测 q_θ_bar 和目标 z’_ξ_bar 之间的均方误差:
    在这里插入图片描述

  • q_θ_bar 是 q_θ 的L2 归一化
    在这里插入图片描述

  • z’_ξ_bar 是 z’_ξ 的 L2 归一化:

在这里插入图片描述

3.目标z’_ξ的构建和q_θ的预测

这是该方法的核心部分。在在线模型中,分为三个阶段:encoder f_θ、projector g_θ和predictor q_θ。

在这里插入图片描述
在线模型由编码器、投影仪和预测器组成。在线模型通过上述目标函数预测目标的投影。sg 代表停止梯度,意味着梯度不会在目标模型中反向传播,因为目标模型是使用 EMA 更新的。训练后,除了 f_θ 之外的所有东西都被丢弃。

整个结构很可能建立在SimCLR框架之上,因此我将简要介绍一下。在 SimCLR 中,输入图像通过 t 和 t’ 进行变换以生成两个增强视图,然后通过编码器 f(⋅) 和投影仪 g(⋅) 以获得投影表示。然后对比投影表示 zᵢ 和 zⱼ 以最大化它们的一致性,发现这比直接最大化 hᵢ 和 hⱼ 之间的一致性导致更好的性能。负对是通过使用来自不同输入图像的视图来构建的。

在这里插入图片描述
然而,不同之处在于,在 BYOL 中,两个视图是通过不同的编码器 f_θ 和 f_ξ 生成的。这两个是相同的架构,但参数不同。此外,在 BYOL 中,有一个预测器和一个目标网络。如您所见,在 BYOL 中,不需要负数对。

PS:
predictor 的作用是通过增加全连接层,来对齐online network和target network的差异(此差异是由不同的数据增强方法导致的)。

结果

在这里插入图片描述

结论

  • BYOL 提供了一种不需要负对的自我监督学习的新方法。

  • BYOL 有两种模型,架构相同但参数不同。在线模型通过优化目标函数来更新其参数。目标模型通过计算指数移动平均值来更新其参数。

个人看法

  • 构造足够多的负对是保证对比学习性能的重要一步。否则,可能会发生称为折叠表示的问题。这项工作为不使用负对的自监督学习开辟了一条新途径。

  • EMA 用于考虑以前的 θ,偏向较新的。该技术已用于其他方法,例如Adam优化器。原始论文还对 EMA 的 τ 进行了消融研究。

参考

https://www.bilibili.com/video/BV1ki4y1T7X4/?spm_id_from=333.337.search-card.all.click&vd_source=980d364ba77f9826e03d714a8e1da0da

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>