在人脸检测中,Viola-Jones算法是一种非常经典的算法,该算法在2001年的CVPR上提出,因其高效快速的检测而被广泛使用。
这个算法用来检测正面的人脸图像,对于侧脸图像的检测不是很稳健。
算法可以被分为以下几个部分:
- 利用Haar特征描述人脸特征
- 建立积分图像,利用该图像快速获取几种不同的矩形特征
- 利用Adaboost算法进行训练
- 建立层级分类器
- 非极大值抑制
1 利用Haar特征描述人脸特征
人脸有一些特征,一张正脸图像中,人眼睛区域会比脸颊区域暗,嘴唇区域也会比四周的区域暗,但鼻子区域会比两边脸颊要亮。
基于这些特征,VJ使用了四种矩形特征,如下图所示
其中A,B为边界特征,C为细线特征,D为对角线特征
那么,Haar特征是如何作用于正脸图像的呢?
如上图所示,Haar特征分别对白色区域和黑色区域的像素求和,然后求这两种和的差;
这可以通过图像卷积实现。
2 积分图像
对于积分图像中的任何一点,该点的积分图像值等于位于该点左上角所有像素之和
表达式如下:
积分图像满足如下公式:
积分图像同时还满足:
上图为一张原始图像,其标示了四个区域:A, B , C ,D
1 处像素点对应的在积分图像中的值为:sum(A);
2 处像素点对应的在积分图像中的值为:sum(A+B);
3 处像素点对应的在积分图像中的值为:sum(A+C);
4 处像素点对应的在积分图像中的值为:sum(A+B+C+D);
则:
区域D所有的像素点灰度值之和为:
sum(A+B+C+D) - sum(A+C) - sum(A+B) + sum(A)
3 获取图像特征
VJ在论文中提到,24*24大小的图像可以产生约160000个矩形特征,那么160000是怎么得到的呢?
VJ使用的矩形特征可以归为三类:
二邻接矩形,横竖两种情况,如矩形特征A,B,最少需要2个像素点表示
三邻接矩形,如矩形特征C,最少需要3个像素点表示,也有横竖两种情况
四邻接矩形,如矩形特征D,最少需要4个像素点表示,只有一种情况
对于24*24大小的图像,每种邻接矩形可能的大小为:
二邻接矩形(最小1*2):长度每次加2,宽度加1
1*2,1*4,1*6,...1*24
2*2,2*4,2*6,...,2*24
...
24*24
三邻接矩形(最小1*3):长度加3,宽度加1
1*3,1*6,1*9,...1*24
2*3,2*6,2*9,...,2*24
...
24*24
四邻接矩形(最小2*2):长度加2,宽度加2
2*2,2*4,2*6,...1*24
4*2,4*4,4*6,...4*24
...
24*24
根据图像卷积,一个W*H的图像与m*n的filter卷积,得到的图像大小为:(W-m+1)*(H-n+1)(默认stride为1)
新图像的每一个像素点的值就是原图一个m*n的local patch 与m*n的filter的乘积和。
新图像有多少个像素点,原图就有多少个m*n的矩形。
这么多矩形,可以通过编程算出,借用未雨绸缪的代码。
这段代码中,横竖矩形窗口的数量是一样的,代码里只计算一种,然后乘以2就行了。
import numpy as npa = np.zeros((3, 2), dtype=int)
Count = np.zeros(3, dtype=int)
a[0, :] = [1, 2]
a[1, :] = [1, 3]
a[2, :] = [2, 2]
Img_size = 24for ii in range(3):rec_h = a[ii, 0]rec_w = a[ii, 1]for xx in range(rec_h, Img_size+1, rec_h):for yy in range(rec_w, Img_size+1, rec_w):Count[ii] = Count[ii]+(Img_size-xx+1)*(Img_size-yy+1)print Count[ii]Total = Count[0]*2+Count[1]*2+Count[2]
print ("Total: ", Total)
最后可以得到:
二邻接矩形:43200
三邻接矩形:27600
四邻接矩形:20736
最终总的矩形特征为:43200×2+27600×2+20736=162336
所以一个24*24的图像最终可以产生162336个矩形特征。
并不是所有特征都是有用的,那么如何提取出有用的特征呢?
AdaBoost特征分类器具有特征选择的能力。
4 利用AdaBoost算法进行训练
4.1 AdaBoost分类器
AdaBoost 将一系列的弱分类器通过线性组合,构成一个强分类器,如下所示:
是一个强分类器,是一个弱分类器,其为一个简单的阈值函数:
为阈值,,为系数。
4.2 训练弱分类器
计算所有训练样本的特征值,并将其从小到大排序,随机选取一个特征值作为阈值,
把所有元素分为两部分,小于阈值的一部分分类为人脸,大于阈值的一部分分类为非人脸。
如下图所示,红色表示人脸,蓝色表示非人脸。
假如有5个样本,前两个为人脸,后三个为非人脸,用11000表示。
如果阈值在第一个之前,通过弱分类器判定为:00000,有两个误差,
如果阈值在第一个和第二个之间,通过弱分类器判定为:10000,有1个误差,
如果阈值在第二个和第三个之间,通过弱分类器判定为:11000,有0个误差,
依次类推,这样共有6个误差,然后从中找到一个误差最小的当成阈值,
这样就训练好了一个最优的弱分类器。
4.3 训练强分类器
假设有N个训练样本,其中有个正样本,个负样本,如果是人脸图像,
则, 否则
其步骤如下:
每一级分类器使用的训练集中的负样本,都是上一级被错分的,即false positive,误检率或假阳性。
这使得下一级分类器更加关注那些更难的(容易被错分的)样本。
5 级联分类器(cascade of classifiers)
在正常的图像中,人脸区域只是占了很小的一部分,如果使用所有的特征进行训练的话,运算量非常大。
级为了简化任务,把若干个adaboost 分类器级联起来,一开始使用少量的特征将大部分的非人脸区域剔除掉,后面再利用更复杂的特征将更复杂的非人脸区域剔除掉。
如果级联分类器的识别率(true positive rate)为D,误识率(false positive rate)为F,
第 层的分类器的识别率为, 误识率为,
则:
其中: K 为分类器的个数
假如每一级的分类器,都具有非常高的检测率(99.9%),
同时误检率也保持相当高(50%)。
那么,如果级联20个这样的小adaboost分类器,
人脸的识别率有:
但是误检率有:
5.1 级联分类器的训练
论文中给出了一种很有效的方法
- 设定每一层最大的可接受误检率 f, 和每一层最小的检测率 d.
- 设定级联分类器的总体误检率
- 初始化总体误检率为,识别率,循环计数器 i=0
- 循环,如果当前 F 大于 时,继续增加一层adaboost分类器
- 在训练每一层分类器时,如果目前该层的特征没有达到该层的 标准,继续添加新的特征。添加新特征时,持续降低该特征的阈值(一般而言,高阈值的分类器的检测率和误检率都会比较低),直到该层分类器的检测率,然后更新
在论文中,VJ分类器一共有38层,含有6060个特征,前7层的特征数为:2->10->25->25->50->50->50
6 非极大值抑制(NMS)
在人脸识别中,一张脸会出现非常多的窗口,如下图所示:
假设有N个窗口,根据分类器的分类概率从小到大排序,概率最大的框记为Z
非极大值抑制的工作步骤如下:
- 从最大概率矩形框Z开始,分别判断其它框与X框的重叠度是否大于设定的阈值
- 假设其中的B,C框超过了阈值,就扔掉B,C,并保留Z框
- 从剩下的矩形框中,选择概率最大的(假设为Y),然后判断其它框与X框的重叠度是否大于设定的阈值,大于扔掉,并保留框Y
- 一直重复这个过程,直到最后一个框
论文中有些地方不够详细,可能比较符合微软研究院的风格吧。
相关链接
论文传送门:Viola-Jones人脸检测
AdaBoost算法:集成算法-AdaBoost
本文参考了论文原文和网上的资料,是笔者自己对Viola-Jones算法的理解,可能会有些偏差,请读者指正。