备赛笔记：RCNN网络基础

admin • 2022-12-06 20:00 • 人工智能

1 目标检测：
目标检测指的是对目标进行分类与定位，输入图片，输出物体类别以及其坐标

目标检测模型分为one stage 和two stage类型。one stage及端到端，速度较快，但是准确性较差，two stage网络速度较慢，但是准确度高

目标检测最早实现依靠滑动窗口，在图片上用不同形状候选框以一定步长滑动，并对窗口内物体进行目标分类，把检测问题变为分类问题。但是这一方法使得候选框过多，导致大量无效计算。因此，分类器由于算力受限无法太复杂。

为了改进滑动窗口检测，出现了Region Proposal Network(RPN)，即对候选框进行初步筛选后再执行分类操作，减少无用计算。基于RPN出现了R-CNN网络系列：R-CNN, FAST R-CNN, FASTER R-CNN…

2 RPN网络：

RPN网络会预先定义9中大小尺寸不同的初始候选框称为anchor, 在feature map上滑动，对于每一个选中区域执行以下两步骤

1 分类：判断候选框内容属于前景还是背景
2 调整预选框：对候选框大小进行调整，使其更适合标签坐标（ground truth），但是不过精确

这一步完成后就可以剔除许多无用的候选框，剩下候选框为ROI（Region of interest）。为了在后面接上全连接网络，对ROI再进行池化（pooling）使其大小统一

RPN网络训练：
1 删除超过边界的anchor
2 对于相互重合的anchor，只保留IOU最大的作为候选框
3 均衡正负样本

RPN损失函数（加权平衡）

3 IOU
IOU（intersection over union）称为交并比，为一个anchor和ground truth相交面积和相并面积之比。IOU值用来评判目标检测精准度

一个ROI的置信度公式为

confidence = Pr(Object) * IOU
其中Pr(Object)如果选中anchor里有物体为1，无物体为0

3 不同图片分割任务

在图像处理中有多种分割任务，包括图片分类，目标检测，语义分割和实例分割。
其中语义分割（semantic segmentation）指的是像素级别图片分类，对每个像素进行分类，但是不会对不同同类目标进行区分。而实例分割（instance segmentation）是在语义分割基础上，对同类物体不同实体进行区分。Mask RCNN属于实例分割模型