国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例

文章目录

  • 2. 特征设计与提取过程q
  • 2.1 局部特征--SIFT
  • 2.2局部特征HOG
  • 3. 特征汇聚或变换h
    • 3.1BoVW视觉词袋模型
    • 3.2PCA
  • 4.以人脸识别为例
    • 4.1 主动统计模型
      • 4.1.1ASM(active shape model)
      • 4.1.2 AAM主动表观模型
    • 4.2人脸特征提取和比对
      • 特征脸
      • Fisherfaces方法--本质(Fisher线性判别分析)=PCA+FLD
      • 贝叶斯人脸识别
      • LBP

  • 计算机视觉的基本任务
    • 距离估计
      • 距离估计是指计算输入图像中的每个点距离摄像机的物理距离,该功能对于导盲系统显然是至关重要的
    • 目标检测、跟踪、定位
      • „ 在图像视频中发现感兴趣的目标,并给出其位置和区域。对导盲系统来说,各类车辆、行人、红绿灯、交通标示等都是需关注的目标
    • 前景分割和物体分割
      • 将图像视频中前景物体所占据的区域或轮廓勾勒出来。为了导盲之目的,将视野中的车辆和斑马线区域勾勒出来显然是必要的,当然,盲道的分割以及可行走区域的分割更加重要
    • 目标分类和识别
      • 为图像视频中出现的目标分配其所属类别的标签。这里类别的概念是非常丰富的,例如画面中人的男女、老少、种族等,视野内车辆的款式乃至型号,甚至是对面走来的人是谁(认识与否)等等
    • 场景分类与识别
      • 根据图像视频内容对拍摄环境进行分类,如室内、室外、山景、海景、街景等等
    • 场景文字检测与识别
      • 特别是在城市环境中,场景中的各种文字对导盲显然是非常重要的,例如道路名、绿灯倒计时秒数、商店名称等等
    • 事件监测与识别
      • „ 对视频中的人、物和场景等进行分析,识别人的行为或正在发生的事件(特别是异常事件)
  • 定义
    • 解读wh3个0~255之间的数字中蕴藏的、人类可理解的内容(边界,区域,物体,事件,意义)
  • 数学建模
    • 多数计算机视觉问题可以建模为广义的函数拟合问题
      • 学习一个以θ\thetaθ为参数的函数F,使得y=Fθ(x)y=F_\theta(x)y=Fθ(x)
      • 其中y大致有两大类:
        • „ 类别标签:有限种类的离散型变量
        • „ 续变量或向量或矩阵:连续的变量或向量

在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述

  • 方法
    1. 图像预处理过程p
      1. 用于实现目标对齐、几何归一化、亮度或颜色矫正、图像复原(如去模糊)、图像增强等处理,从而提高数据的一致性,该过程一般是人为设定的。
    2. 特征设计与提取过程
      1. 其功能是从预处理后的图像中提取描述图像内容的特征,这些特征可能反应图像的低层(如边缘)、中层(如部件)或高层(如场景)特性,一般也是依据专家知识人工设计的
      2. 该步骤一般并不需要训练数据进行学习
    3. 特征汇聚或变换t
      1. 其功能是对前步提取的局部特征(一般是向量)z,进行统计汇聚或降维处理,从而得到维度更低、更利于后续分类或回归过程的特征z′。
      2. 该过程一般通过专家设计的统计建模方法实现,通常需要训练数据进行学习(与下一个步骤类似)
    4. 分类器或回归器函数h的设计与训练
      y=Fθ(x)=h(t(q(p(x))))y=F_\theta(x)=h(t(q(p(x))))y=Fθ(x)=h(t(q(p(x))))
  • 缺点——浅层视觉模型
    • 带有强烈的“人工设计”色彩:不仅
      • 依赖于专家知识进行步骤的划分,
      • 更依赖专家知识选择和设计各步骤的函数

2. 特征设计与提取过程q

  • 设计某种流程来提取专家觉得“好”的特征
  • 分类
    • 局部特征
      • 提取局部细节,主要建模边缘、梯度、纹理基元等
      • 手段:滤波器+统计(直方图)
      • 典型的局部特征:SIFT, HOG, LBP, Gabor, SURF, DAISY, BRIEF, ORB, BRISK
    • 全局特征
      • 颜色直方图(统计各个颜色出现的频度
      • GIST(对图像场景的整体空间形状属性建模

2.1 局部特征–SIFT

在这里插入图片描述

  • 尺度不变特征变换,
    • SIFT: Scale-Invariant Feature Transform
      • „ 由David Lowe于1999年提出,其发表的ICCV1999和IJCV2004两篇文章被谷歌引用超过65000次
  • „ 概况
    • 自动发现一定数量的关键兴趣点
      • „ 特征点数是不确定的,与图像内容有关
    • 自适应确定合适的局部邻域范围
      • „ 与特征点尺度有关
    • 提取方向直方图作为描述特征
      • „ 特征维度通常固定为128维
      • „ 对尺度和旋转等变化具有良好不变性
  • 计算步骤
    1. 尺度空间上的极值检测
      • 目标:识别潜在的、对尺度和旋转不变的候选兴趣点
      • 做法:使用高斯差分(DoG)金字塔近似LoG算子,形成尺度空间用以计算极值点
        • 不仅要考虑图像域中空间域上的极值,也要考虑尺度域中相邻尺度上的极值点
        • 即:极值点是DoG尺度空间的本层及上下层的若干邻域点中的最大/小值
    2. 关键点筛选和精确定位
      • why?上述极值点都未必是稳定可靠的特征点,并且为之也未必精确
        • 筛选:去除部分对比度低的关键点,以及去除那些响应大但不稳定的边缘点
        • 精确定位:采用函数拟合法,通过求解拟合曲线的极值点来得到位置和尺度
    3. 确定特征点主方向
      • „ 为实现旋转不变性,需确定每个特征点的主方向
        • 所谓主方向,是指该特征点邻域像素梯度方向的统计显著方向
      • „ 通过统计一定邻域范围内像素的梯度方向直方图得到(参见上图)
      • „ 为准确计算主方向,可以10度为间隔构建直方图
        • 注:清晰起见,上图示例的只是8个方向,即以45度为间隔
    4. „ 确定描述子采样邻域的范围(由步骤2所得尺度决定)以获得尺度不变性
      • „ 用步骤3的主方向对该区域进行旋转以对齐到主方向,获得旋转不变性

      • „ 将旋转后区域划分为d×d个子区域(d通常取为4),在每个子区域内计算O个方向的梯度直方图

        • 与求主方向不同,这里通常取O为8,即每个方向区间为45°
        • 故最终每个特征点的SIFT特征维度为4x4x8=128

        在这里插入图片描述在这里插入图片描述
        在这里插入图片描述
        SIFT讲解视频

2.2局部特征HOG

  • 方向梯度直方图
  • 动机:SIFT仅在稀疏关键点邻域内统计梯度特征(找关键点费劲
  • 特点
    • 也是统计局部梯度直方图,但没有关键点的概念
    • 按不长滑动窗口直接在图像上均匀采样,局部区域统计方向,梯度直方图
    • 开启了稠密特征描述子的先河
      在这里插入图片描述
  • 计算步骤
    1. 梯度计算
      • 将每个像素点作为中心点位置,计算其梯度强度和方向
      • 可以通过水平和竖直方向的滤波器核([-1, 0, +1]和[-1, 0, +1]T)实现
    2. 将图像分块(Block)
      • 设定图像块大小,例如BxB个像素,然后在图像上以一定的步长S滑动,滑动到每个位置得到一个BxB大小的图像块
      • S一般小于B,所以图像块之间是有重叠的
    3. 分块细分为Cell
      • 将每个分块(BxB)均匀细分为若干个更小的分块,每个分块称为cell
      • 假设每个cell大小为NxN像素, 则每个Block被划分为(B/N)x(B/N)个Cell
    4. Cell内统计梯度强度加权的方向直方图
      • 以cell为基本统计单元计算方向直方图,即
      • 将cell中每个像素的梯度方向按照梯度强度加权的方式,映射到预设的M个方向桶(bin)中,从而形成cell的方向梯度直方图H_c
    5. 拼接Block内所有Cell直方图并归一化
      • 每个Block 内部所有cell的H_c直接拼接得到H_b
      • 然后用L1-norm或L2-Norm对其进行归一化处理,即得到该block的方向梯度直方图
    6. 全图HOG特征计算
      • 将图像中所有Block的特征串接起来, 即得到最终的图像HOG特征

3. 特征汇聚或变换h

  • 原因
    `有效性(未充分考虑随后的任务和目标
  • 方法
    • 特征汇聚
      • 视觉词袋模型(BoVW),Fisher向量(FV),和局部聚合向量(VLAD)
    • 特征变换方法
      • PCA,线性判别分析、流形学习

3.1BoVW视觉词袋模型

  • 图-文档;局部特征-词
  • 计算过程
  • „ 1. 图像特征提取
    • 理论上,用于BoVW方法的图像特征可以是任意特征
    • „ 既可以前述的稀疏关键点SIFT特征,也可以是稠密采样的HOG特征
    • „ 实践中,128维的稀疏关键点SIFT特征是应用最广泛的
  • „ 2. 视觉词典构建
    • 用于文本处理的BoW基本单元是单词(word)
      • „ 单词是确定的,很容易统计词频
    • 面向计算机视觉的单词应该是什么?
      • „ 视觉局部特征几乎不可能完全相同,需要首先构建视觉单词,形成视觉词典(Visual Vocabulary),以便像BOW中一样通过统计词频形成词袋
      • „ 视觉单词可以理解为一些经常出现的视觉特征,需要从一个训练集中学习而来
      • 假设训练集中有M幅图像,对第i幅图像提取SIFT特征,设得到Ni个关键点及其每个关键点的128维SIFT描述子
      • 将所有训练图像中的N=Σi=1MNiN=\Sigma_{i=1}^MN_iN=Σi=1MNi个SIFT特征进行聚类
        • 例如用K-Means,高斯混合模型等,得到K个聚类中心
        • 每个聚类中心是一个128维的向量Wk,即所谓视觉单词
      • 所有K个视觉单词的集合即形成视觉词典D={Wk:k=1,...,K}D=\{W_k:k=1,...,K\}D={Wk:k=1,...,K}
  1. 图像的视觉词袋表示
    • 给定任意图像
    • 计算其SIFT特征,得到l个128位的SIFT的描述子{xj}
    • 将这些特征分别映射到视觉词典中的某个视觉单词 {Wj}
    • 统计每个视觉单词出现的频次,可以得到一个K维的直方图向量H
  • 优点
    • 从L*128的不定长表示->K维定长表示
    • 便于度量不同图像间的距离,有利于后续图像检测分类等任务
  • 应用
    • 以图搜图SIFT+BoVW+Hashing(二值化)用于图像检索任务
    • 图像分类 SIFT+BoVW+SVM用于图像分类任务

3.2PCA

  • 目标
    在这里插入图片描述在这里插入图片描述
  • 降维
    • 理论:特征值的大小对应于特征向量所描述的方向上方差的大小==》所以从w中去掉那些对应较小特征值的特征向量,因为在信息丢失最小的情况下降维
    • 误差:x与重构的x’的误差为:Σj=1nλj−Σj=1dλj=Σj=1+dnλj\Sigma_{j=1}^n\lambda_j-\Sigma_{j=1}^ d\lambda_j=\Sigma_{j=1+d}^n\lambda_jΣj=1nλjΣj=1dλj=Σj=1+dnλj
  • 小结:
    • „ 一种多元统计分析方法
    • „ 变换后各维数据之间的相关性最小
    • „ 最小均方误差意义下的最佳变换
    • „ 限定有效的参数空间范围(在训练集合对象变化论域下)

在这里插入图片描述在这里插入图片描述在这里插入图片描述

4.以人脸识别为例

在这里插入图片描述

  • 面部特征点定位方法
    • 可变形模版的方法(下巴检测、眼睛嘴唇检测)

在这里插入图片描述在这里插入图片描述

4.1 主动统计模型

4.1.1ASM(active shape model)

  • 人脸形状表示(n个特征点形成的向量s
  • 统计形状模型
  • 人工->S={s1,s2,…,sm}
  • pca:bs=Ws′(s−sˉ)−b_s=W'_s(s-\bar{s})-bs=Ws(ssˉ)
  • 重构s=(ˉs)+Wsbs−−−改变bs,得到不同的人脸形状(方向)s=\bar(s)+W_sb_s---改变bs,得到不同的人脸形状(方向)s=(ˉs)+Wsbsbs(
    在这里插入图片描述
  • „ 目标:求取最优的人脸形状(特征点位置)
    • 求取最优的bs参数,使得用bs重建的形状最佳的匹配输入图像中人脸的形状
  • „ 思路
    • 首先进行不够可靠的局部特征点纹理匹配
    • 然后通过全局形状统计约束来对其进行规范化
  • „ 方法(迭代优化
    • 局部纹理模型:每个特征点自己找自己该去哪里
      • „ 对每个特征点,在其法线邻域内搜索最佳匹配局部纹理模型的点
      • „ 局部纹理模型
        • 法线方向的纹理梯度,称为Profile
        • 每个特征点的Profile模型都要在训练阶段统计而来
      • „ 匹配方法
        • 在法线上逐点计算(马氏)距离
        • 选择距离最小的候选点作为匹配点
    • 全局统计形状模型(PCA)约束:纠正不靠谱的(瞎跑的)特征点
  • 缺点
    • 实质上目标函数缺失
    • 容易形成震荡
      在这里插入图片描述在这里插入图片描述
      在这里插入图片描述

4.1.2 AAM主动表观模型

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

4.2人脸特征提取和比对

  • 人脸存储
    • 几何参数
    • 亮度向量
    • 特征脸
      • 本质PCA or KLT(用于人脸提取特征问题)
      • Wi-像脸?Wi是协方差矩阵的特征向量
    • Fisherfaces方法–本质(Fisher线性判别分析)=PCA+FLD
      • 寻找一种投影变换Y=WX
      • 同一人更紧致,不同人更离散
      • 类内离散度Sw
      • 类间离散度Sb
      • Sw−1SbW=WΛ目标函数:Wfld=argmaxW∣WTSBW∣∣WTSWW∣S_w^{-1}S_bW=W\Lambda\\目标函数:W_{fld}=argmax_W\frac{|W^TS_BW|}{|W^TS_WW|}Sw1SbW=WΛWfld=argmaxWWTSWWWTSBW
      • 如果Sw是奇异的:正则化,Null-space
      • FLD假设:所有类别具有相同的协方差分布(实际不是这样的
      • FLD的特征唯独:最大为C-1(C类)
    • 贝叶斯人脸识别
      • „ 类内差(ΩI\Omega_IΩI)类
        • 相同个体的多幅图象之间的差别,即包含了表情、不同光照条件、不同姿态等差别
      • „ 类间差(ΩE\Omega_EΩE )类
        • 不同人的人脸图象之间的差别,包含了身份变化的信息
      • 相似度建模为Δ=I1−I2\Delta=I_1-I_2Δ=I1I2属于类内差别的概率S(I1,I2)=P(Δ∈ΩI)=P(ΩI∣Δ)=P(Δ∣ΩI)P(ΩI)P(Δ∣ΩI)P(ΩI)+P(Δ∣ΩE)P(ΩE)若为正态分布:P(Δ∣ΩI)=N(Δ,ΣI)P(Δ∣ΩE)=N(Δ,ΣE)S(I_1,I_2)=P(\Delta \in \Omega_I)=P(\Omega_I|\Delta)\\=\frac{P(\Delta|\Omega_I)P(\Omega_I)}{P(\Delta|\Omega_I)P(\Omega_I)+P(\Delta|\Omega_E)P(\Omega_E)}\\若为正态分布:P(\Delta|\Omega_I)=N(\Delta,\Sigma_I)\\P(\Delta|\Omega_E)=N(\Delta,\Sigma_E)S(I1,I2)=P(ΔΩI)=P(ΩIΔ)=P(ΔΩI)P(ΩI)+P(ΔΩE)P(ΩE)P(ΔΩI)P(ΩI)P(ΔΩI)=N(Δ,ΣI)P(ΔΩE)=N(Δ,ΣE)
    • Tom-vs-pete:像谁就是谁
    • LBP:local binary patterns(图像=语言)
    • Gabor+FLDA

特征脸

在这里插入图片描述在这里插入图片描述

Fisherfaces方法–本质(Fisher线性判别分析)=PCA+FLD

在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述

贝叶斯人脸识别

  • 在这里插入图片描述在这里插入图片描述在这里插入图片描述

LBP

在这里插入图片描述在这里插入图片描述

  • 建模图像中的微模式类型
    • 与中心点像素亮度上的大小关系
    • 一种建模邻域像素与中心像素亮度序关系的局部特征
      • 3x3像素邻域,中心像素和8-邻域像素亮度大小关系
      • „ 比中心像素更亮则赋1,否则赋0,这样会有256种不同的模式
    • 微模式类型可以类比语言中的word(单词)
    • „ 视觉单词的词频统计作为不同人脸的特征表示

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481632.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DeepMind又放大招!用大型语言模型实现可信推理,距离模型可解释性又近了一步...

来源:AI前线整理:核子可乐、冬梅可解释性,已经成为当今机器学习研究与开发领域最紧迫的难题之一。尽管目前的大规模语言模型(LM)已经展现出令人印象深刻的问答能力,但其固有的不透明性却导致人们无法理解模…

机器智能的未来

来源:混沌巡洋舰今年8月,马斯克发布推文称将会在10月31日,更新有关脑机接口的最新进展。近几年,人工智能方面的发展一直在取得突破和进展,人们对这方面的期待和研究却一直没有停止。比尔盖茨2021年度书单重磅推荐了《千…

国科大prml15-目标检测

改进R-CNN缩放图片SPPNet允许不同大小输入,SPP(pooling)归一化到相同尺寸Fast RCNN1.SPP->Rol pooling;2.改进边框校准Smooth L1 loss;3.全连接加速Truncated SVDFaster RCNNRPN直接生成候选框(共享CNN),anchor boxMask R-CNN实例分割&…

大模型铺天盖地出现后,计算机科学终成「自然科学」

来源:选自Communications of the ACM作者:Subbarao Kambhampati(美国人工智能学会前主席)编译:机器之心编辑:rome rome当部分人工智能正偏离其工程本源,AI 研究的方向变化,超出了我们…

Transformers 如何模仿大脑的某些部分

来源:ScienceAI编译:白菜叶了解大脑如何组织和访问空间信息「我们在哪里」,「拐角处有什么」,「如何到达那里」,这仍然是一项艰巨的挑战。该过程涉及从数百亿个神经元中调用整个记忆网络和存储的空间数据,每…

国科大prml-往年习题

文章目录1 模式识别过拟合欠拟合概率图概率图-独立性HMM哲学理论adaboost贝叶斯贝叶斯判别贝叶斯判别-正态分布贝叶斯估计贝叶斯决策朴素贝叶斯半监督无监督聚类GMMEM极大似然估计判别函数线性判别和非线性判别线性判别函数的数量(M分类感知机势函数法9.势函数法&am…

城市大脑已经几岁?城市大脑发展成熟度的年龄评估模型

说明:该论文由科学院研究团队刘颖、刘锋于2022年7月发表在《科技导报》第14期,是对城市大脑发展成熟度的探索研究,为构建城市大脑发展成熟度评估规范提供参考。根据研究团队建立的评估模型,进行初步评估,提出目前城市大…

GMM

GMM 一个类一个正态分布N(μk,Σk)N(\mu_k,\Sigma_k)N(μk​,Σk​) 有监督无监督半监督目标函数Llogp(Xl,Yl∥θ)Σi1llogp(yi∥θ)p(xi∥yi,θ)Σi1llogαyiN(xi∥θyi)Llogp(X_l,Y_l\|\theta)\Sigma_{i1}^llogp(y_i\|\theta)p(x_i\|y_i,\theta)\\\Sigma_{i1}^llog \alpha_…

城市大脑已经几岁?城市大脑发展成熟度的年龄评估模型(修改版)

说明:该论文由科学院研究团队刘颖、刘锋于2022年7月发表在《科技导报》第14期,是对城市大脑发展成熟度的探索研究,为构建城市大脑发展成熟度评估规范提供参考。根据研究团队建立的评估模型,进行初步评估,提出目前城市大…

2022年 AI 技术成熟度曲线

来源:Gartner公司编辑:蒲蒲近日,Gartner发布了最新的《2022年人工智能技术成熟度曲线》报告,报告称尽早采用复合型人工智能(AI)、决策智能等AI技术将给企业机构带来明显的竞争优势,缓解AI模型脆…

国科大prml--SVM

拉格朗日的原始问题是minw,bmaxλLmin_{w,b} max_{\lambda} Lminw,b​maxλ​L对偶问题是maxλminw,bLmax_{\lambda} min_{w,b}Lmaxλ​minw,b​L 原问题拉格朗日对偶问题分界面最终参数hard marginminw12∥w∥2min_w \frac{1}{2}\|w\|^2minw​21​∥w∥2约束yi(wTxi)>1,对…

科学家们正在使用人工智能来构想革命性的新蛋白质

来源:ScienceAI编译:白菜叶6 月,韩国监管机构授权使用人类设计的新型蛋白质制成首个药物,即 COVID 疫苗。该疫苗基于研究人员近十年前通过劳动密集型试错过程创造的球形蛋白质「纳米颗粒」。现在,由于人工智能&#xf…

多模态认知计算

来源:图灵人工智能 日常生活中, 人类至少利用视觉, 听觉等多种感官理解周围环境, 通过整合多种感知模态, 形成对事件的整体认识. 为使机器更好地模仿人类的认知能力, 多模态认知计算模拟人类的“联 觉”(Synaesthesia), 探索图像, 视频, 文本, 语音等多模态输入的高…

知识表示与知识图谱--介绍

知识表示与知识图谱 知识支撑 人类理解需要机器也需要知识工程 手段:信息技术特点:高效率、大容量目标:获取并利用知识与信息的技术例子 第一个专家系统:费根鲍姆知识工程语言TUILI--1982--陆汝衿专家系统开发环‘天马’--1987--…

「图学习推荐系统」最新2022综述

来源:专知协同过滤是一种被广泛应用于推荐系统中的方法,其利用不同用户之间(或不同物品之间)的相似性关系来过滤和抽 取用户和物品的交互信息,从而进行用户推荐.近年来,图神经网络因其出色的表示学习性能和良好的可扩展性逐渐成为推荐 领域中的一种新兴的范式.文中从…

2知识图谱的生命周期

知识图谱的生命周期 知识图谱 知识建模--建立本体ontolog 建什么 概念、实体的类型概念/实体的关联关系要求:可靠性方法 自顶向下--专家手工形成数据模式自底向上--实体--类 利用现有的标准转换从现有的高质量数据源中进行映射:用知识图谱--抽象建模--来…

nlp1-介绍

能做什么? 自然语言处理: 如何让计算机能够自动或半自动地理解自然语言文本,懂得人的意图和心声?如何让计算机实现海量语言文本的自动处理、挖掘和有效利用,满足不同用户的各种需求,实现个性化信息服务&…

经纬张颖:给科研技术背景创始人的十条建议

来源:动脉橙果局编辑: Light出品: 科技智谷"给科研技术背景创始人的十条建议近一年,随着经纬在科技类公司的投资比例更大、金额更多,我和这类创始人们也进行了更高频次的交流,更多地了解了他们的困惑和…

nlp2-数学基础(信息论,概率论、词义消歧)

文章目录概率论信息论计算熵计算信息熵、条件熵、联合熵波利尼亚语熵率噪声信道模型建立一个翻译词义消歧(WSD贝叶斯最大熵的消歧方法概率论 在自然语言处理中,以句子为处理单位时一般假设句子独立于它前面的其它语句,句子的概率分布近似地符…