活体检测FaceBagNet阅读笔记

原文链接:https://openaccess.thecvf.com/content_CVPRW_2019/papers/CFS/Shen_FaceBagNet_Bag-Of-Local-Features_Model_for_Multi-Modal_Face_Anti-Spoofing_CVPRW_2019_paper.pdf

 背景

人脸图像是用于高度准确的人脸识别系统的最容易获得的生物识别模式,但它容易受到许多不同类型的呈现攻击,如高清纸张、视频、面具和头模等。因此,人脸反欺骗检测(FAS)是人脸识别系统中的关键过程,旨在确定捕获的人脸是否真实。基于卷积神经网络 (CNN) 的最先进的方法在该领域呈现出良好的效果。然而,以前的工作专注于一个单一的模态数据,主题数量有限。 最近发布的CASIA-SURF数据集是最大的数据集,由1000个主题和21000个视频剪辑组成,同时具有3 种模态数据(RGB、Depth 和 IR)。

相关工作

现有的FAS方法可以分为两类,一类是基于非深度学习(传统)的方法,另一类是基于深度学习的方法。 

(1)基于非深度学习的方法

先前的FAS方法通常利用手工特征,如LBP、HoG、SIFT和SURF,并且通常采用传统的分类器,如SVM和LDA。为了克服光照变化的影响,《A face antispoofing database with diverse attacks》利用多个DoG滤波器来过滤掉噪声和低频信息,随后使用SVM分类器来区分真假人脸。《LBP - TOP based countermeasure against face spoofing attacks》使用空间和时间描述符来编码丰富的信息。《On the effectiveness of local binary patterns in face anti-spoofing》使用 LBP 描述符从灰度图像中提取判别特征,然后应用 3 个分类器将其作为分类问题执行。

由于传统方法对不同的光照、姿势和特定身份非常敏感,因此这些方法无法捕获具有判别力的特征表示,泛化能力较差。

(2)基于深度学习的方法

最近在许多视觉信息处理领域,如目标检测、图像分类,CNN已被证明是一种有效的方法。 因此,CNN被广泛用于FAS和活体检测。《An original face anti-spoofing approach using partial convolutional neural network》提取特征并应用PCA来提高人脸识别系统的鲁棒性。《Learning deep models for face anti-spoofing: Binary or auxiliary supervision》利用深度图和 rPPG信号作为监督,以提高泛化能力。《Face de-spoofing: Anti-spoofing via noise modeling》通过将欺骗人脸逆分解为真人脸和欺骗噪声模式,引入了解决FAS的新视角。

总体而言,现有方法将FAS视为二分类问题,由于对训练数据的过度拟合,它们无法很好地泛化。《Approximating cnns with bagof-local-features models works surprisingly well on imagenet》从输入图像中提取patch特征,然后在数据集上取得显著改进。

创新点

(1)作者提出了一种基于patch的方法。该方法根据出现的局部图像特征对人脸图像进行分类,表现出强大的性能。

(2)为了防止过度拟合和更好地学习融合特征,在训练期间,使用模态特征擦除模块从一个随机选择的模态中擦除特征。

方法论

图1展示了模型的整体架构。融合网络是从头开始训练的,其中RGB、Depth和IR图像的人脸patch同时输入到网络中,子网络的模态特征在训练期间被随机擦除。

图1 整体网络结构

人脸欺骗特有的判别信息存在于整个人脸区域。因此,研究人员可以使用patch级图像来强制CNN 提取此类信息。 通常的基于patch的方法将全脸分成几个固定的非重叠区域。然后每个patch用于训练一个独立的子网络。在这篇文章中,对于每种模态,作者在从人脸中随机提取的patch上训练一个CNN。作者使用ResNext网络来提取深度特征,该网络由五组卷积模块、一个全局平均池化层和一个softmax层组成。表1显示了网络架构的层数,包括了kernel大小、输出特征图通道数、分组卷积的组数、步长。实验表明,基于patch的特征在不同的攻击中具有很强的区分性。

表1 FaceBagNet网络相关参数

由于不同模态图像的特征分布不同,作者提出的模型也在利用不同模态之间的相互依赖关系。如图 1所示,作者使用具有三个子网络的多流架构来执行多模态特征融合,在res3之后连接三个子网络的特征图。直接连接来自每个子网络的特征不能充分利用不同模态之间的特征。为了防止过拟合和更好地学习融合特征,作者对多模态特征设计了模态特征擦除模型。对于同一batch输入,在训练期间,会随机选择一个模态的子网络特征进行擦除,擦除区域内的相应权重被设置为零。融合网络是从头开始训练的,其中RGB、depth和IR数据同时分别输入每个子网络。

实验

CASIA-SURF数据集是目前最大的FAS数据集,包括三种模态,如图2所示。数据集由6种攻击生成。

图2 CASIA-SURF数据集中不同攻击的示例

攻击表现分类错误率 (APCER)、正常表现分类错误率 (NPCER) 和平均分类错误率 (ACER) 的统计数据作为作者提出的模型的评估结果。

人脸图像的大小调整为112×112。作者使用了随机翻转、旋转、调整大小、裁剪来增强数据。patch是从112×112的图像中随机提取的。使用SGD优化器和循环余弦退火学习率计划。 整个训练过程有250个epoch。优化器的权重衰减和动量分别设置为0.0005和0.9。

相关实验结果如下表所示。

表2 ChaLearn人脸反欺骗攻击检测挑战赛决赛阶段队伍的测试集结果和排名

表3 不同patch大小和数据模态的实验结果比较

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>