备赛笔记:RCNN网络基础

1 目标检测:
目标检测指的是对目标进行分类与定位,输入图片,输出物体类别以及其坐标

目标检测模型分为one stage 和two stage类型。one stage及端到端,速度较快,但是准确性较差,two stage网络速度较慢,但是准确度高

目标检测最早实现依靠滑动窗口,在图片上用不同形状候选框以一定步长滑动,并对窗口内物体进行目标分类,把检测问题变为分类问题。但是这一方法使得候选框过多,导致大量无效计算。因此,分类器由于算力受限无法太复杂。

为了改进滑动窗口检测,出现了Region Proposal Network(RPN),即对候选框进行初步筛选后再执行分类操作,减少无用计算。基于RPN出现了R-CNN网络系列:R-CNN, FAST R-CNN, FASTER R-CNN…

2 RPN网络:
在这里插入图片描述

RPN网络会预先定义9中大小尺寸不同的初始候选框称为anchor, 在feature map上滑动,对于每一个选中区域执行以下两步骤

1 分类: 判断候选框内容属于前景还是背景
2 调整预选框:对候选框大小进行调整,使其更适合标签坐标(ground truth),但是不过精确

这一步完成后就可以剔除许多无用的候选框,剩下候选框为ROI(Region of interest)。为了在后面接上全连接网络,对ROI再进行池化(pooling)使其大小统一

RPN网络训练:
1 删除超过边界的anchor
2 对于相互重合的anchor,只保留IOU最大的作为候选框
3 均衡正负样本

RPN损失函数(加权平衡)
在这里插入图片描述

3 IOU
IOU(intersection over union)称为交并比,为一个anchor和ground truth相交面积和相并面积之比。IOU值用来评判目标检测精准度
在这里插入图片描述
一个ROI的置信度公式为

confidence = Pr(Object) * IOU
其中Pr(Object)如果选中anchor里有物体为1,无物体为0

3 不同图片分割任务
在这里插入图片描述
在图像处理中有多种分割任务,包括图片分类,目标检测,语义分割和实例分割。
其中语义分割(semantic segmentation)指的是像素级别图片分类,对每个像素进行分类,但是不会对不同同类目标进行区分。而实例分割(instance segmentation)是在语义分割基础上,对同类物体不同实体进行区分。Mask RCNN属于实例分割模型

4 FCN (Fully Convolutional )
FCN即为把普通CNN全连接网络部分也转化为卷积网络。这样该部分输入(第一轮卷积结果的feature map)不需要池化固定大小

FCN使用上采样来把卷积结果还原为较大图片。池化属于下采样(sub-sampling),上采样既是池化反向操作,有双线性差值,转置卷积等方式。转置卷积即为卷积运算反向操作

在这里插入图片描述

在上采样过程中,我们可以选取并拼接卷积运算中不同阶段卷积结果以更清晰还原原图

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>