视频目标检测发展历程(2020年)附出处

视频目标检测是为了解决每一个视频帧中出现的目标如何进行定位和识别的问题。相比于图像目标检测,视频具有高冗余度的特性,其中包含了大量的时空局部信息。随着深度卷积神经网络在静态图像目标检测领域的迅速普及,在性能上相较于传统方法显示出了非常大的优越性,并逐步在基于视频的目标检测任务上也发挥了应有的作用。但将图像目标检测直接应用到视频目标检测是一个巨大挑战。不同于图像,在视频中可能会产生目标外观特征的退化,比如移动模糊,视频散焦,怪异姿态等。现有的视频目标检测算法仍然面临改进与优化主流目标检测算法的性能、保持视频序列的时空一致性、检测模型轻量化等关键技术的挑战[2]。目前大部分的论文都把视频帧分成关键帧和非关键帧两部分,关键帧的选取有两种方法:一种是间隔固定的帧数选取,另一种是自适应的方法选取。关键帧上的目标检测与图片目标检测一样,采用主流的检测算法,比如Faster R-CNN,SSD和YOLO等系列方法,有些方法也会利用前后帧的结果对关键帧的检测结果进行优化;在非关键帧上通常借助关键帧的检测结果和非关键帧与关键帧之间的信息差别,计算出非关键帧上的检测结果。2015 年,计算机视觉图像领域最具权威的学术竞赛 ImageNet 大规模视觉识别挑战赛(ImageNet Large Scale Visual Recognition Challenge, ILSVRC)新增了一项名为视频目标检测(Object Detection from Video, VID)的比赛项目并公布了相应的数据集 ImageNet VID。自此以后涌现了大量基于深度学习的图像和视频目标检测算法,它们致力于提高视频目标检测算法的速度和精度,以解决现实生活中的相关问题,为人们的生产生活提供便利。用于视频目标检测的方法逐渐增多,有后处理、基于跟踪的方法、循环神经网络、基于运动信息(如光流)进行特征迁移或融合的方法等。
后处理方法是通用的过程,可以应用于任何目标检测器的输出,以改善视频中的目标检测。2016年Wei Han1,Pooya Khorrami等人研究出了序列非极大抑制(Seq-NMS)的方法,该方法基于“轨迹”上其他检测通过动态规划对检测置信度进行修正,该方法在2015年ImageNet大规模视觉识别挑战的视频对象检测 (VID) 任务中排名第三。[Wei Han 0002 et al. Seq-NMS for Video Object Detection.[J]. CoRR, 2016, abs/1602.08465] 在2019年Hatem BELHASSEN 等人提出通过Seq-Bbox匹配改进视频目标检测的方法,并与YOLOv3做了结合,有很轻的计算开销,适用于大多数实际计算机视觉应用[Hatem, Belhassen & Zhang, Heng & Fresse, Virginie & Bourennane, El-Bay. (2019). Improving Video Object Detection by Seq-Bbox Matching.] 。在2020年Alberto Sabater等人在在后处理方法中引入了一种后处理管道(post-processing pipeline )也与YOLOv3结合做视频目标检测,在更低帧率的视频中具有更高的鲁棒性Sabater, A., Montesano, L., & Murillo, A.C. (2020). Robust and efficient post-processing for video object detection. 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 10536-10542.。
在2018年Zheng Zhang 等人利用轨迹条件检测网络在早期阶段将检测和跟踪结合,在先前帧计算的轨迹上生成一组单独的边界框该模型(使用 R-FCN ResNet101 主干)在 imageenet VID 上在线设置中实现了83.5 MAP Zhang, Z., Cheng, D., Zhu, X., Lin, S., & Dai, J. (2018). Integrated Object Detection and Tracking with Tracklet-Conditioned Detection. ArXiv, abs/1811.11167.。
同年Mason Liu,Menglong Zhu创建了一个交织的循环卷积结构,该模型将快速的单图像目标检测和卷积 LSTM 层结合起来,该模型在线运行,可在低功耗移动设备和嵌入式设备上实时运行,在移动设备上实现了45.1 MAP,14.6 FPS[Mobile Video Object Detection with Temporally-Aware Feature Maps]。2019年还是Mason Liu团队提出了一种通过交织多个特征提取器并将其结果汇总到内存中的视频对象检测方法,还提出了一种使用强化学习来学习交织策略的方法,该模型可以移动环境中有效且直接地部署[Looking Fast and Slow: Memory-Guided Mobile Video Object Detection]。
基于运动信息(如光流)进行特征迁移或融合的方法比较多,首先是在2017年Xizhou Zhu等人提出一种快速准确的视频识别框架,它仅在稀疏关键帧上运行昂贵的卷积子网络,并通过流场将其深层特征图传播到其他帧,提升了视频目标检测的速度Zhu, Xizhou et al. “Deep Feature Flow for Video Recognition.” 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2017): 4141-4150.。而后同年还是Xizhou Zhu等人为视频对象检测提供了一个准确,端到端和有原则的学习框架,但在快速物体运动中仍有很大的改进空间[Zhu, Xizhou et al. “Flow-Guided Feature Aggregation for Video Object Detection.” 2017 IEEE International Conference on Computer Vision (ICCV) (2017): 408-417.]。还是在2017年Congrui Hetang 等人提出了印象网络,它是对现有盒级后处理方法如Seq-NMS的补充,该网络体现了自然而有效的特征聚合机制,印象网络继承了任务独立性,并有可能解决其他视频任务中的图像退化问题Hetang, Congrui et al. “Impression Network for Video Object Detection.” ArXiv abs/1712.05896 (2017): n. pag.。同年Xizhou Zhu等人又提出了一种基于多帧端到端学习特征和跨帧运动原理的统一方法。该算法采用光流和稀疏递归特征聚合的方法保持聚合后的特征质量。此外,它通过只在稀疏关键帧上操作来减少计算量。在传播的特征质量较差的情况下,采用空间自适应部分特征更新算法对非关键帧进行特征重计算Zhu, Xizhou et al. “Towards High Performance Video Object Detection.” 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (2018): 7210-7218.。Xizhou Zhu等人在2018年又将网络体系结构轻量化并应用到了移动设备上Zhu, Xizhou et al. “Towards High Performance Video Object Detection for Mobiles.” ArXiv abs/1804.05830 (2018): n. pag.。
还有一些多帧无光流的特征聚合的视频目标检测方法,在2020年由Yihong Chen等人提出的记忆增强的全局-本地聚合(MEGA) 网络,设计的远程内存 (LRM) 模块,使得MEGA网络可以使关键帧获得比以前任何方法更多的内容Chen, Yihong et al. “Memory Enhanced Global-Local Aggregation for Video Object Detection.” 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2020): 10334-10343.。
同年Mingfei Han等人提出了一种新颖的视频间建议关系模块。通过以分层方式集成视频内和视频间提议关系设计了分层视频关系网络 (hvr-net)。此设计可以逐步利用帧内和帧间上下文来增强对视频对象的检测Mining Inter-Video Proposal Relations for Video Object Detection。主流的多帧无光流特征聚合和 Seq-NMS 后处理结合精度最高,但速度较慢(GPU 上小于10 FPS)。在准确率和速度之间需要权衡: 通常更快的方法准确率较低。所以研究兼具准确率和速度的新方法仍然有很大潜力。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇

)">
下一篇>>