自监督学习相关概念及论文简述

1.相关概念

        自监督学习:自监督学习是一种将输入数据本身作为监督信号的表示学习方法,与监督式学习、无监督学习一样,属于表示学习的范畴。

2.特点

        不依赖人工标注的数据标签直接从原始数据中自动学习有区分度的特征表示。

3.核心

        神经网络的训练需要任务来进行驱动,所以自监督学习的核心就是来合理构造有利于模型学习的任务。

4.自监督构造任务的方法

        (1)基于pretext task(代理任务)
        (2)基于contrastive learning(对比学习)
        (3)基于mask image modeling(掩码图像模型)

5.基于pretext task

        对目标任务有帮助的辅助任务,是一种为达到特定训练任务而设计的间接任务.
        主流代表:

        (1)Relative Location
        Context 信息蕴含着大量的监督信息,视觉领域可以利用图片的context信息来完成自监督训练。

        相关论文:Unsupervised Visual Representation Learning by Context Prediction

        论文思想:从一张图片中随机抽取两个 patches,然后让模型来预测一个 patch 相对于另外一个 patch 的位置。作者认为: 模型只有很好地理解到图片中的各种场景,物体,以及各部分之间的相互关系,模型才能够很好地完成这个相对位置预测任务。

        (2)Colorization
        通过构造一个图片着色任务来让模型学习图片的语义信息。

        相关论文:Colorful Image Colorization
        论文思想:只有很好地理解到了各种场景的独立的语义信息,以及他们之间的联系,模型才能够很好完成这项任务。

        (3)Context Encoders
        Context Encoders 也是通过设计重建原图来使模型学习到图片的语义信息。但是与 Colorization 不同,Context Encoders 是从空间维度对图片进行重建,而 Colorization 是从图片的通道维度进行重建。

        相关论文:Context Encoders: Feature Learning by Inpainting
        论文思想:模型只有很好地理解到整张图片的语义信息,才能够很好地完成这个重建任务。

        (4)Rotation Prediction
        通过让模型去识别图片的旋转角度,让模型具有理解图片语义信息的能力。

        相关论文:Unsupervised Representation Learning by Predicting Image Rotations

        论文思想:模型只有很好地识别并提取图片中的主要物体,并理解其和图片中其他景物的语义信息,才能够完成这个旋转角度识别任务。

6.基于contrastive learning

        一张图片,经过不同的数据增强,被神经网络所提取的特征,仍应具有高度的一致性。        

        (1)MoCo
        将之前的对比学习总结成字典查找的框架,再基于此提出 MoCo。

        相关论文:Momentum Contrast for Unsupervised Visual Representation Learning

        论文思想:提出了 Momentum Contrast 的概念,另外为无监督对比损失函数构建了足够大且具有高度一致性的字典,并通过队列 (queue) 的数据结构进行维护。

        (2)SimCLR
        相关论文:A Simple Framework for Contrastive Learning of Visual Representations

        论文思想:SimCLR 没有使用动量更新也没有队列来储存特征向量,它通过大 batch size 来构建负样本,网络就是普通的 ResNet + MLP,通过梯度反向传播来更新,和普通的分类网络训练流程并无二致。

        SimCLR提出四大结论:

        对比学习中,强大的数据增强至关重要,相比于有监督学习,对比学习从中受益更多。

        在网络学习到的特征和损失函数计算之间,添加可学习的非线性层有助于特征的学习。

        归一化的 embeddings 和合适的 temperature 参数有助于特征表示的学习。

        越大的 batch size 和越久的训练时间有助于对比学习获得更好的结果,另外和监督学习一样,大网络可以取得更好的结果。

        (3)BYOL
        相关论文:Bootstrap your own latent: A new approach to self-supervised Learning

        论文思想:在BYOL中则摒弃了负样本,通过非对称结构以及动量更新方式来避免模型坍缩,并且仍然达到了SOTA结果。

        (4)SwAV
        相关论文:Unsupervised Learning of Visual Features by Contrasting Cluster Assignments

        论文思想:提出一种在线聚类损失,不论大小bacth size,不用大型队列和动量编码器,也可有效训练,提出 multi-crop 数据增强策略,增加输入图片的视角。

        (5)SimSiam
        相关论文:Exploring Simple Siamese Representation Learning

        论文思想:作者在对比实验后提出,stop-gradient 才是避免模型坍缩的关键,如果不使用 stop gradient,那么不论如何变换模型,都会得到捷径解,即模型输出常数,损失函数达到理论的最小值。作者提出假设, SimSiam 的实现是类 EM 算法,而 stop-gradient 的存在使得算法可以按照 EM 的思路进行迭代从而避免模型坍缩

7.基于mask image modeling(MIM)
        掩码图像建模 (MIM) 是指:将图像中一些图像块掩码掉,用其他剩下的可见的图像块 (Visible patches) 来预测被掩码掉的图像块 (Masked patches)。自监督表征预训练,把MIM这个任务当成预训练任务,来训练图像编码器 (Encoder) ,期望编码器编码的表征 (Representation) 包含丰富的语义信息。

        (1)BEiT
        相关论文:BEiT: BERT Pre-Training of Image Transformers

        论文思想:BEiT 预训练中,每一张图片有两种视角:一是图像块 (image patches),如每一小块图像为 16x16 像素;二是离散的视觉标记 (discrete visual tokens)。在预训练过程中,BEiT 先将原始图片标记化,并且对图像块进行随机掩码,并将掩码后的图片输入到编码器当中,主要的预训练目标便是基于未掩码图像块来恢复掩码图像块。

        (2)MAE
        相关论文:Masked Autoencoders Are Scalable Vision Learners

        论文思想:MAE 相比于 BEiT,简化了整体训练逻辑,利用随机掩码处理输入的图像块,以及直接重建掩码图像块来进行训练。MAE 基于两大主要设计:一是采用了非对称结构的编码-解码器,其中编码器只计算非掩码图像块同时采用了轻量化的解码器设计;二是遮盖大部分的图像块,如掩码概率为 75%,可以获得更加具有意义的自监督训练任务。

        (3)SimMIM
        相关论文:SimMIM: A Simple Framework for Masked Image Modeling

        论文思想:SimMIM认为掩码部分采用随机掩码,并且适当增大图像块的分辨率即可获得很好的结果,并且文章中提供了对比试验的结果,当图像块分辨率为 32x32 时可以获得最好的效果,并将其设置为 ViT 模型的默认设置。
        (4)MaskFeat

        相关论文:Masked Feature Prediction for Self-Supervised Visual Pre-Training

        论文思想:在整体思路上依然是重建掩码图像块的思路,只不过它的重建目标从原始像素值变成了 HOG 特征描述器。

        

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>