七、应用-计算机视觉
7.1 人脸检测
DenseBox\Femaleness-Net\MT-CNN\Cascade CNN 介绍
VJ框架的分类器级联用于卷积网络
用于人脸检测的紧凑卷积神经网络级联
问题:作者希望实时检测高分辨率视频流中的正面,由于人脸图像和背景的多样性和复杂性,这具有挑战性。
解决方案:作者提出了三个卷积神经网络 (CNN) 的级联,其参数很少,并且可以在移动 GPU 上高效运行。
结果:作者表明,他们的 CNN 级联可以以高达每秒 27 帧的速度处理 4K 超高清视频,并在 FDDB 数据集上实现与最先进的正面人脸检测器相当的性能。他们还声称他们的检测器比任何现有的 CPU 或 GPU 算法都要快得多2。
本文提出了一种基于三个紧凑 CNN 级联的正面人脸检测新解决方案34。第 1 部分的要点是:
动机:作者的目标是设计一种快速、准确的检测器,可以处理高分辨率视频流,并应对人脸图像和背景的巨大变化和困难。
方法:作者使用三个参数很少的 CNN,并针对低级并行性和速度对其进行了优化。第一个 CNN 扫描图像金字塔并拒绝大部分背景区域5。第二个和第三个 CNN 使用选择单元对剩余区域进行分类和细化。最终的检测是通过非极大值抑制算法获得的。
评估:作者将他们的检测器与 FDDB 数据集上的其他正面和多视角人脸检测器进行了比较,结果表明他们的检测器具有相似的性能,但速度要高得多。他们还展示了他们的探测器可以在移动 GPU 上实时处理 4K 超高清视频,并且对图像内容具有鲁棒性。
这篇论文提出了一种基于卷积神经网络(CNN)的级联人脸检测器,它具有以下几个特点:
它只有三个级联阶段,比其他的级联方法更简洁。
它使用了紧凑的CNN结构,减少了特征图的数量,但保证了模型的准确性。
它可以异步地执行不同的级联阶段,提高了检测的速度和效率。
它利用了SIMD、CUDA和OpenCL等技术,对CNN的实现进行了优化,使得检测器的性能接近硬件的峰值。
这篇论文在两个公开的人脸检测数据集上进行了实验,证明了它的优越性。它可以在移动平台上实时地处理4K超高清视频流。
Compact Convolutional Neural Network Cascade for Face Detection
https://arxiv.org/ftp/arxiv/papers/1508/1508.01292.pdf Compact Convolutional Neural Network Cascade for Face Detection
https://github.com/Bkmz21/CompactCNNCascade Bkmz21/CompactCNNCascade:一个二进制库,用于使用紧凑型 CNN 进行非常快速的人脸检测。(github.com)
DenseBox目标检测
网络结构
https://zhuanlan.zhihu.com/p/44021975 人脸检测之DenseBox - 知乎 (zhihu.com)
https://arxiv.org/abs/1509.04874
Faceness-Net 人脸检测
https://ar5iv.labs.arxiv.org/html/1701.08393?_immersive_translate_auto_translate=1 Faceness-Net: Face Detection through Deep Facial Part Responses --- [1701.08393] Faceness-Net:通过深层面部部分响应进行人脸检测 (arxiv.org)
MT-CNN(Multi-Task CNN,多任务CNN)
https://github.com/timesler/facenet-pytorch 预训练的 Pytorch 人脸检测 (MTCNN) 和人脸识别 (InceptionResnet) 模型
https://github.com/YYuanAnyVision/mxnet_mtcnn_face_detection MTCNN人脸检测,下载mxnet_mtcnn_face_detection的源码
7.2 通用目标检测
deformable parts model 介绍
IOU概念介绍
通用目标检测的R-CNN算法
https://en.wikipedia.org/wiki/Region_Based_Convolutional_Neural_Networks
https://neurohive.io/en/popular-networks/r-cnn/
空间金字塔池化(Spatial Pyramid Pooling,简称SPP)网络
https://www.mdpi.com/2079-9292/9/6/889 Evaluation of Robust Spatial Pyramid Pooling Based on Convolutional Neural Network for Traffic Sign Recognition System (mdpi.com)
SPP网络与R-CNN网络对比
介绍Fast R-CNN 网络
Fast R-CNN - arXiv.org. https://arxiv.org/abs/1504.08083.
https://github.com/rbgirshick/fast-rcnn
详述R-CNN,SPP,Fast R-CNN的优缺点
ROI池化层
Faster R-CNN
https://zhuanlan.zhihu.com/p/370407951 一文详解R-CNN、Fast R-CNN、Faster R-CNN - 知乎 (zhihu.com)
Faster R-CNN相比于之前的R-CNN版本有哪些优点和不足?
Mask R-CNN
https://arxiv.org/abs/1703.06870 [1703.06870] Mask R-CNN (arxiv.org)
https://zhuanlan.zhihu.com/p/462521226 Mask R-CNN超详细介绍 - 知乎 (zhihu.com)
Yolo 网络
https://github.com/ultralytics/yolov5
https://zhuanlan.zhihu.com/p/186014243
YOLO相较于R-CNN系列算法有哪些不同之处?
SSD网络
SSD网络结构
SSD网络主要用于哪些任务?
SSD网络是如何生成候选检测框的?
SSD网络的训练算法
https://arxiv.org/abs/1512.02325
https://arxiv.org/pdf/1512.02325.pdf
Smooth L1损失
https://zhuanlan.zhihu.com/p/267688490 目标检测回归损失函数——L1、L2、smooth L1 - 知乎 (zhihu.com)
7.3 人脸关键点定位
参考网址:
https://aravamu2-cs-766-project-webpage.netlify.app/r-cnn/
https://zhuanlan.zhihu.com/p/172121380