文章目录
- 2. 特征设计与提取过程q
- 2.1 局部特征--SIFT
- 2.2局部特征HOG
- 3. 特征汇聚或变换h
- 3.1BoVW视觉词袋模型
- 3.2PCA
- 4.以人脸识别为例
- 4.1 主动统计模型
- 4.1.1ASM(active shape model)
- 4.1.2 AAM主动表观模型
- 4.2人脸特征提取和比对
- 特征脸
- Fisherfaces方法--本质(Fisher线性判别分析)=PCA+FLD
- 贝叶斯人脸识别
- LBP
- 计算机视觉的基本任务
- 距离估计
- 距离估计是指计算输入图像中的每个点距离摄像机的物理距离,该功能对于导盲系统显然是至关重要的
- 目标检测、跟踪、定位
- „ 在图像视频中发现感兴趣的目标,并给出其位置和区域。对导盲系统来说,各类车辆、行人、红绿灯、交通标示等都是需关注的目标
- 前景分割和物体分割
- 将图像视频中前景物体所占据的区域或轮廓勾勒出来。为了导盲之目的,将视野中的车辆和斑马线区域勾勒出来显然是必要的,当然,盲道的分割以及可行走区域的分割更加重要
- 目标分类和识别
- 为图像视频中出现的目标分配其所属类别的标签。这里类别的概念是非常丰富的,例如画面中人的男女、老少、种族等,视野内车辆的款式乃至型号,甚至是对面走来的人是谁(认识与否)等等
- 场景分类与识别
- 根据图像视频内容对拍摄环境进行分类,如室内、室外、山景、海景、街景等等
- 场景文字检测与识别
- 特别是在城市环境中,场景中的各种文字对导盲显然是非常重要的,例如道路名、绿灯倒计时秒数、商店名称等等
- 事件监测与识别
- „ 对视频中的人、物和场景等进行分析,识别人的行为或正在发生的事件(特别是异常事件)
- 距离估计
- 定义
- 解读wh3个0~255之间的数字中蕴藏的、人类可理解的内容(边界,区域,物体,事件,意义)
- 数学建模
- 多数计算机视觉问题可以建模为广义的函数拟合问题
- 学习一个以θ\thetaθ为参数的函数F,使得y=Fθ(x)y=F_\theta(x)y=Fθ(x)
- 其中y大致有两大类:
- „ 类别标签:有限种类的离散型变量
- „ 续变量或向量或矩阵:连续的变量或向量
- 多数计算机视觉问题可以建模为广义的函数拟合问题
- 方法
- 图像预处理过程p
- 用于实现目标对齐、几何归一化、亮度或颜色矫正、图像复原(如去模糊)、图像增强等处理,从而提高数据的一致性,该过程一般是人为设定的。
- 特征设计与提取过程
- 其功能是从预处理后的图像中提取描述图像内容的特征,这些特征可能反应图像的低层(如边缘)、中层(如部件)或高层(如场景)特性,一般也是依据专家知识人工设计的
- 该步骤一般并不需要训练数据进行学习
- 特征汇聚或变换t
- 其功能是对前步提取的局部特征(一般是向量)z,进行统计汇聚或降维处理,从而得到维度更低、更利于后续分类或回归过程的特征z′。
- 该过程一般通过专家设计的统计建模方法实现,通常需要训练数据进行学习(与下一个步骤类似)
- 分类器或回归器函数h的设计与训练
y=Fθ(x)=h(t(q(p(x))))y=F_\theta(x)=h(t(q(p(x))))y=Fθ(x)=h(t(q(p(x))))
- 图像预处理过程p
- 缺点——浅层视觉模型
- 带有强烈的“人工设计”色彩:不仅
- 依赖于专家知识进行步骤的划分,
- 更依赖专家知识选择和设计各步骤的函数
- 带有强烈的“人工设计”色彩:不仅
2. 特征设计与提取过程q
- 设计某种流程来提取专家觉得“好”的特征
- 分类
- 局部特征
- 提取局部细节,主要建模边缘、梯度、纹理基元等
- 手段:滤波器+统计(直方图)
- 典型的局部特征:SIFT, HOG, LBP, Gabor, SURF, DAISY, BRIEF, ORB, BRISK
- 全局特征
- 颜色直方图(统计各个颜色出现的频度
- GIST(对图像场景的整体空间形状属性建模
- 局部特征
2.1 局部特征–SIFT
- 尺度不变特征变换,
- SIFT: Scale-Invariant Feature Transform
- „ 由David Lowe于1999年提出,其发表的ICCV1999和IJCV2004两篇文章被谷歌引用超过65000次
- SIFT: Scale-Invariant Feature Transform
- „ 概况
- 自动发现一定数量的关键兴趣点
- „ 特征点数是不确定的,与图像内容有关
- 自适应确定合适的局部邻域范围
-
- „ 与特征点尺度有关
- 提取方向直方图作为描述特征
- „ 特征维度通常固定为128维
- „ 对尺度和旋转等变化具有良好不变性
- 自动发现一定数量的关键兴趣点
- 计算步骤
- 尺度空间上的极值检测
- 目标:识别潜在的、对尺度和旋转不变的候选兴趣点
- 做法:使用高斯差分(DoG)金字塔近似LoG算子,形成尺度空间用以计算极值点
- 不仅要考虑图像域中空间域上的极值,也要考虑尺度域中相邻尺度上的极值点
- 即:极值点是DoG尺度空间的本层及上下层的若干邻域点中的最大/小值
- 关键点筛选和精确定位
- why?上述极值点都未必是稳定可靠的特征点,并且为之也未必精确
- 筛选:去除部分对比度低的关键点,以及去除那些响应大但不稳定的边缘点
- 精确定位:采用函数拟合法,通过求解拟合曲线的极值点来得到位置和尺度
- why?上述极值点都未必是稳定可靠的特征点,并且为之也未必精确
- 确定特征点主方向
- „ 为实现旋转不变性,需确定每个特征点的主方向
- 所谓主方向,是指该特征点邻域像素梯度方向的统计显著方向
- „ 通过统计一定邻域范围内像素的梯度方向直方图得到(参见上图)
- „ 为准确计算主方向,可以10度为间隔构建直方图
- 注:清晰起见,上图示例的只是8个方向,即以45度为间隔
- „ 为实现旋转不变性,需确定每个特征点的主方向
- „ 确定描述子采样邻域的范围(由步骤2所得尺度决定)以获得尺度不变性
-
„ 用步骤3的主方向对该区域进行旋转以对齐到主方向,获得旋转不变性
-
„ 将旋转后区域划分为d×d个子区域(d通常取为4),在每个子区域内计算O个方向的梯度直方图
- 与求主方向不同,这里通常取O为8,即每个方向区间为45°
- 故最终每个特征点的SIFT特征维度为4x4x8=128
SIFT讲解视频
-
- 尺度空间上的极值检测
2.2局部特征HOG
- 方向梯度直方图
- 动机:SIFT仅在稀疏关键点邻域内统计梯度特征(找关键点费劲
- 特点
- 也是统计局部梯度直方图,但没有关键点的概念
- 按不长滑动窗口直接在图像上均匀采样,局部区域统计方向,梯度直方图
- 开启了稠密特征描述子的先河
- 计算步骤
- 梯度计算
- 将每个像素点作为中心点位置,计算其梯度强度和方向
- 可以通过水平和竖直方向的滤波器核([-1, 0, +1]和[-1, 0, +1]T)实现
- 将图像分块(Block)
- 设定图像块大小,例如BxB个像素,然后在图像上以一定的步长S滑动,滑动到每个位置得到一个BxB大小的图像块
- S一般小于B,所以图像块之间是有重叠的
- 分块细分为Cell
- 将每个分块(BxB)均匀细分为若干个更小的分块,每个分块称为cell
- 假设每个cell大小为NxN像素, 则每个Block被划分为(B/N)x(B/N)个Cell
- Cell内统计梯度强度加权的方向直方图
- 以cell为基本统计单元计算方向直方图,即
- 将cell中每个像素的梯度方向按照梯度强度加权的方式,映射到预设的M个方向桶(bin)中,从而形成cell的方向梯度直方图H_c
- 拼接Block内所有Cell直方图并归一化
- 每个Block 内部所有cell的H_c直接拼接得到H_b
- 然后用L1-norm或L2-Norm对其进行归一化处理,即得到该block的方向梯度直方图
- 全图HOG特征计算
- 将图像中所有Block的特征串接起来, 即得到最终的图像HOG特征
- 梯度计算
3. 特征汇聚或变换h
- 原因
`有效性(未充分考虑随后的任务和目标 - 方法
- 特征汇聚
- 视觉词袋模型(BoVW),Fisher向量(FV),和局部聚合向量(VLAD)
- 特征变换方法
- PCA,线性判别分析、流形学习
- 特征汇聚
3.1BoVW视觉词袋模型
- 图-文档;局部特征-词
- 计算过程
- „ 1. 图像特征提取
- 理论上,用于BoVW方法的图像特征可以是任意特征
- „ 既可以前述的稀疏关键点SIFT特征,也可以是稠密采样的HOG特征
- „ 实践中,128维的稀疏关键点SIFT特征是应用最广泛的
- „ 2. 视觉词典构建
- 用于文本处理的BoW基本单元是单词(word)
- „ 单词是确定的,很容易统计词频
- 面向计算机视觉的单词应该是什么?
- „ 视觉局部特征几乎不可能完全相同,需要首先构建视觉单词,形成视觉词典(Visual Vocabulary),以便像BOW中一样通过统计词频形成词袋
- „ 视觉单词可以理解为一些经常出现的视觉特征,需要从一个训练集中学习而来
- 假设训练集中有M幅图像,对第i幅图像提取SIFT特征,设得到Ni个关键点及其每个关键点的128维SIFT描述子
- 将所有训练图像中的N=Σi=1MNiN=\Sigma_{i=1}^MN_iN=Σi=1MNi个SIFT特征进行聚类
- 例如用K-Means,高斯混合模型等,得到K个聚类中心
- 每个聚类中心是一个128维的向量Wk,即所谓视觉单词
- 所有K个视觉单词的集合即形成视觉词典D={Wk:k=1,...,K}D=\{W_k:k=1,...,K\}D={Wk:k=1,...,K}
- 用于文本处理的BoW基本单元是单词(word)
- 图像的视觉词袋表示
- 给定任意图像
- 计算其SIFT特征,得到l个128位的SIFT的描述子{xj}
- 将这些特征分别映射到视觉词典中的某个视觉单词 {Wj}
- 统计每个视觉单词出现的频次,可以得到一个K维的直方图向量H
- 优点
- 从L*128的不定长表示->K维定长表示
- 便于度量不同图像间的距离,有利于后续图像检测分类等任务
- 应用
- 以图搜图SIFT+BoVW+Hashing(二值化)用于图像检索任务
- 图像分类 SIFT+BoVW+SVM用于图像分类任务
3.2PCA
- 目标
- 降维
- 理论:特征值的大小对应于特征向量所描述的方向上方差的大小==》所以从w中去掉那些对应较小特征值的特征向量,因为在信息丢失最小的情况下降维
- 误差:x与重构的x’的误差为:Σj=1nλj−Σj=1dλj=Σj=1+dnλj\Sigma_{j=1}^n\lambda_j-\Sigma_{j=1}^ d\lambda_j=\Sigma_{j=1+d}^n\lambda_jΣj=1nλj−Σj=1dλj=Σj=1+dnλj
- 小结:
- „ 一种多元统计分析方法
- „ 变换后各维数据之间的相关性最小
- „ 最小均方误差意义下的最佳变换
- „ 限定有效的参数空间范围(在训练集合对象变化论域下)
4.以人脸识别为例
- 面部特征点定位方法
- 可变形模版的方法(下巴检测、眼睛嘴唇检测)
4.1 主动统计模型
4.1.1ASM(active shape model)
- 人脸形状表示(n个特征点形成的向量s
- 统计形状模型
- 人工->S={s1,s2,…,sm}
- pca:bs=Ws′(s−sˉ)−b_s=W'_s(s-\bar{s})-bs=Ws′(s−sˉ)−
- 重构s=(ˉs)+Wsbs−−−改变bs,得到不同的人脸形状(方向)s=\bar(s)+W_sb_s---改变bs,得到不同的人脸形状(方向)s=(ˉs)+Wsbs−−−改变bs,得到不同的人脸形状(方向)
- „ 目标:求取最优的人脸形状(特征点位置)
- 求取最优的bs参数,使得用bs重建的形状最佳的匹配输入图像中人脸的形状
- „ 思路
- 首先进行不够可靠的局部特征点纹理匹配
- 然后通过全局形状统计约束来对其进行规范化
- „ 方法(迭代优化
- 局部纹理模型:每个特征点自己找自己该去哪里
- „ 对每个特征点,在其法线邻域内搜索最佳匹配局部纹理模型的点
- „ 局部纹理模型
- 法线方向的纹理梯度,称为Profile
- 每个特征点的Profile模型都要在训练阶段统计而来
- „ 匹配方法
- 在法线上逐点计算(马氏)距离
- 选择距离最小的候选点作为匹配点
- 全局统计形状模型(PCA)约束:纠正不靠谱的(瞎跑的)特征点
- 局部纹理模型:每个特征点自己找自己该去哪里
- 缺点
- 实质上目标函数缺失
- 容易形成震荡
4.1.2 AAM主动表观模型
4.2人脸特征提取和比对
- 人脸存储
- 几何参数
- 亮度向量
- 特征脸
- 本质PCA or KLT(用于人脸提取特征问题)
- Wi-像脸?Wi是协方差矩阵的特征向量
- Fisherfaces方法–本质(Fisher线性判别分析)=PCA+FLD
- 寻找一种投影变换Y=WX
- 同一人更紧致,不同人更离散
- 类内离散度Sw
- 类间离散度Sb
- Sw−1SbW=WΛ目标函数:Wfld=argmaxW∣WTSBW∣∣WTSWW∣S_w^{-1}S_bW=W\Lambda\\目标函数:W_{fld}=argmax_W\frac{|W^TS_BW|}{|W^TS_WW|}Sw−1SbW=WΛ目标函数:Wfld=argmaxW∣WTSWW∣∣WTSBW∣
- 如果Sw是奇异的:正则化,Null-space
- FLD假设:所有类别具有相同的协方差分布(实际不是这样的
- FLD的特征唯独:最大为C-1(C类)
- 贝叶斯人脸识别
- „ 类内差(ΩI\Omega_IΩI)类
- 相同个体的多幅图象之间的差别,即包含了表情、不同光照条件、不同姿态等差别
- „ 类间差(ΩE\Omega_EΩE )类
- 不同人的人脸图象之间的差别,包含了身份变化的信息
- 相似度建模为Δ=I1−I2\Delta=I_1-I_2Δ=I1−I2属于类内差别的概率S(I1,I2)=P(Δ∈ΩI)=P(ΩI∣Δ)=P(Δ∣ΩI)P(ΩI)P(Δ∣ΩI)P(ΩI)+P(Δ∣ΩE)P(ΩE)若为正态分布:P(Δ∣ΩI)=N(Δ,ΣI)P(Δ∣ΩE)=N(Δ,ΣE)S(I_1,I_2)=P(\Delta \in \Omega_I)=P(\Omega_I|\Delta)\\=\frac{P(\Delta|\Omega_I)P(\Omega_I)}{P(\Delta|\Omega_I)P(\Omega_I)+P(\Delta|\Omega_E)P(\Omega_E)}\\若为正态分布:P(\Delta|\Omega_I)=N(\Delta,\Sigma_I)\\P(\Delta|\Omega_E)=N(\Delta,\Sigma_E)S(I1,I2)=P(Δ∈ΩI)=P(ΩI∣Δ)=P(Δ∣ΩI)P(ΩI)+P(Δ∣ΩE)P(ΩE)P(Δ∣ΩI)P(ΩI)若为正态分布:P(Δ∣ΩI)=N(Δ,ΣI)P(Δ∣ΩE)=N(Δ,ΣE)
- „ 类内差(ΩI\Omega_IΩI)类
- Tom-vs-pete:像谁就是谁
- LBP:local binary patterns(图像=语言)
- Gabor+FLDA
特征脸
Fisherfaces方法–本质(Fisher线性判别分析)=PCA+FLD
贝叶斯人脸识别
LBP
- 建模图像中的微模式类型
- 与中心点像素亮度上的大小关系
- 一种建模邻域像素与中心像素亮度序关系的局部特征
- 3x3像素邻域,中心像素和8-邻域像素亮度大小关系
- „ 比中心像素更亮则赋1,否则赋0,这样会有256种不同的模式
- 微模式类型可以类比语言中的word(单词)
- „ 视觉单词的词频统计作为不同人脸的特征表示