人脸识别必读的N篇文章


来源:机器视觉

概要:人脸检测/跟踪的目的是在图像/视频中找到各个人脸所在的位置和大小;对于跟踪而言,还需要确定帧间不同人脸间的对应关系。


一 、人脸检测/跟踪


人脸检测/跟踪的目的是在图像/视频中找到各个人脸所在的位置和大小;对于跟踪而言,还需要确定帧间不同人脸间的对应关系。

 

1. Robust Real-time Object Detection. Paul Viola, Michael Jones. IJCV 2004.


入选理由:


Viola的人脸检测工作使得人脸检测真正变得实时可用。他们发表了一系列文章,这篇是引用率最高的一篇。

 

2. Fast rotation invariant multi-view face detection based on real Adaboost. Bo Wu, Haizhou Ai, Chang Huang, Shihong Lao. AFGR 2004.

 

人选理由:


自viola之后,有很多改进文章,这篇文章只是其中之一。之所以选择这篇,是因为其贡献点相对比较多:一是因为这篇文章第一次将real adaboost应用于物体检测,二是其提出了一个比较成熟实用的多姿态人脸检测框架,三是其提出的nest结构对cascade结构的改进确实有不错的效果。

 

3. Tracking in Low Frame Rate Video: A Cascade Particle Filter with Discriminative Observers of Different Life Spans. Yuan Li, Haizhou Ai, Yamashita T., Shihong Lao. CVPR 2007.

 

入选理由:


人脸跟踪是人脸识别中非常重要的模块。这篇文章是比较好的将人脸检测模型与跟踪进行结合,将离线模型和在线模型结合的工作,而且获得了CVPR 2007 Best Student Paper,是中国大陆学生第一次获此殊荣。

 

二、人脸特征点定位


人脸特征点定位的目的是在人脸检测/跟踪获取的人脸区域的基础上,进一步,确定脸部特征点(眼睛、嘴巴中心点、眼睛、嘴巴轮廓特征点、器官轮廓特征点等)的位置。人脸特征点定位的基本思路,主要是将人脸局部器官的纹理特征和器官特征点之间的位置约束进行结合来进行处理。

 

4. Active Shape Models-Their Training and Application. T. F. COOTES, C. J. TAYLOR, D. H. COOPER, AND J. GRAHA. COMPUTER VISION AND IMAGE UNDERSTANDING. 1995.


入选理由:


早期的人脸特征点定位,很多工作主要集中在定位眼球中心点和嘴巴中心点等两三个关键点上,但是,后来慢慢大家认为,引入更多的点,并加入相互约束会提高定位精度和稳定性。ASM是后来被大家所follow最多的将数十个脸部特征点的纹理和位置关系约束一起考虑来进行计算的模型,COOTES的这篇文章发表于1995年,绝对是开先河之作,绝对经典。

 

5. Boosted Regression Active Shape Models. David Cristinacce and Tim Cootes. BMVC, 2007.


入选理由:


ASM相关改进的文章非常多,最值得一提的当然是AAM(也是cootes最早提出)模型,除此之外还有一个非常重要的思路,就是改进原文章基于边缘的纹理模型。个人认为,这篇文章中所给出的基于回归方式表示纹理模型的方式比基于分类表观模型的方法更有前途,因为是cootes的文章,自然就更应该被推荐。

 

6. Face Alignment by Explicit Shape Regression. Xudong Cao, Yichen Wei, Fang Wen, Jian Sun. CVPR 2012.


入选理由:


这篇文章是上述提到的ASM相关改进的另外一个方向,就是对形状模型本身的改进。这篇文章没有用PCA去约束形状模型,而是基于训练样本的线性组合来约束形状。而且,其在alignment的效果(LFPW测试集)上是目前看到最好的,此外,这个方法的速度非常快。由于是MSRA孙剑组的文章,确实应该被关注更多。

 

三、人脸表示

 

人脸表示是指根据人脸特征点的位置,对人脸进行几何校正并割取人脸区域(归一化到固定大小)之后,得到最具有鉴别(区分)能力的特征的过程。

 

7. Eigenfaces for recognition. M. Turk and A. Pentland. Journal of Cognitive Neuroscience. 1991.


入选理由:


这需要理由吗?基于PCA的特征脸是人脸识别最经典的算法之一,虽然今天PCA在实际系统中更多的是用来降维,而不是用来分类,但是这么经典的方法还是要关注的。其实,基于LDA的方法也非常经典,不过,考虑到篇幅有限,就不再列举了。

 

8. Local Gabor Binary Pattern Histogram Sequence (LGBPHS):

A Novel Non-Statistical Model for Face Representation and Recognition


入选理由:


个人认为这可能是最接近于很多成熟商用系统思路的文章(不等同于实际系统就是这样)。在很多实际系统中,一个提取鉴别信息的框架就是PCA+LDA,用PDA进行降维避免LDA求解的矩阵奇异问题,然后用LDA提取更适合分类的特征;进一步,将各种原始特征(Gabor, LBP等)进行鉴别特征提取后进行决策级融合。此外,对人脸进行分块然后ensemble融合也是非常重要的提高系统效果的思路。

 

9. Blessing of Dimensionality: High-dimensional Feature and Its Efficient Compression for Face Verification. Dong Chen. Xudong Cao. Fang Wen. Jian Sun. CVPR 2013.


入选理由:


LFW是目前最接近实际数据的人脸识别库,虽然其测试协议有一些不尽合理的地方,但是如果能在LFW上面取得非常好的效果,说明方法还是比较好的。而这篇MSRA 孙剑组发表在CVPR2013的文章,在LFW上面取得了93%的准确率(未引入外部数据的情况下)。文章中的一个是采用精确定位点作为参考对人脸进行多尺度、多局部区域的表示思路很值得借鉴,可以和各种表示方法结合。

 

10,其实可以列在此处的论文非常多,有各种子空间方法的改进,有各种特征提取方法,有各种基于metric learning的方法,bunch graph(将gabor应用于人脸识别的经典工作),稀疏表示的方法,feature learning 的方法等等。但是,我都感觉不是特别满意。我总觉得,人脸表示方面的工作还做得远远不够,应该会有框架清晰简洁、易于实现、但效果绝佳的文章出现。现在的我会倾向于认为也许deep learning是一个方向。


其实尝试将deep learning用在人脸识别上面的工作已经有一些,但是结果都不是很惊艳(百度的工作没有公开结果),我列上一篇不够好但是效果勉强接近非deep learning方法的一篇:


Deep nonlinear metric learning with independent subspace analysis for face verification. X Cai, C Wang, B Xiao, X Chen, J Zhou. MM 2012.


人脸识别在未来的一些可能方向:


1,深度学习在人脸方面的应用,目前已经看到deep learning在人脸表示和人脸特征点定位方面的工作,相信后续会有更多更好的工作出现;


2,大规模人脸搜索相关的应用近来开始被大家关注(比如最近百度上线的人脸搜索),这些应用中除了需要传统的人脸表示,还需要关注如何能够快速准确地在大规模人脸数据库中搜索到相似人脸,当然这部分工作可以借鉴其他视觉搜索中的方法,但人脸可能也会有自己的特殊性;


3,基于3D模型和具有深度信息的人脸识别的方法,在允许使用特殊设备的实际应用中,可以考虑用3D模型和深度信息来提高系统的稳定性;


4,在做人脸识别实际系统时,可以更关注姿态、遮挡、表情变化对于识别效果的影响,对于人脸光照问题,虽然之前学术界关注很多,但是对于实际数据(非实验室采集的光照模拟数据),可能基于大规模训练数据和feature learning就可以比较好的解决,反而是由于目前的人脸表示框架,对于大的姿态变化,遮挡以及表情变化引起的表观改变,很多情况下表现并不好,可能需要重新改变目前的人脸表示方式,比如采用类似推荐论文9中的方式,采用多个局部模型而不是一个整体模型来进行表示,还可以考虑一些人脸姿态/表情矫正方法;


5,学术界的朋友,鉴于目前LFW上面已经做到准确率95%(引入外部训练数据且无约束训练协议),可以考虑创建一个更大的人脸库(如果能达到真正意义上的大规模数据就更赞了),设计一个更加合理全面的评测协议,这必将成为一个非常有影响力的工作;


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/497519.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

所谓高情商就是会说话--总结

思维导图:https://www.processon.com/view/link/60d6fe741e08532a43bea811

美国12大科技公司如何参与自动驾驶?

来源:腾讯科技概要:无人驾驶汽车的潜力已经逐步显现,这一点,从本周在拉斯维加斯举行的国际消费电子展(CES)就可以看出端倪。无人驾驶汽车的潜力已经逐步显现,这一点,从本周在拉斯维加…

java web响应式框架_Web开发的十佳HTML5响应式框架

HTML5框架是一类有助于快速轻松创建响应式网站的程序包。这些HTML5框架有着能减轻编程任务和重复代码负担的神奇功能。关于HTML5的框架种类繁多,并且很瘦欢迎,因为它能允许开发人员花费更少的时间和精力去创建一个令人惊艳的网站。在本文中,我…

开放-封闭原则(OCP)

开放-封闭原则(The Open-Close Principle) 软件实体(类、模块、函数等)应该是可以扩展的,但是不可以修改的。 两个特征 1、对于扩展是开放的(Open for extension); 2、对于更改是…

风向2018 | AI 突围

来源:36氪概要:回到战场,考验各家公司CEO和谋士的时刻,已经到来。问:2017年AI行业最大的进展是什么?答:创业公司的估值。高估值,曾将AI初创公司带上高光的创投舞台,也正将…

php return 值_php return的用法是什么

php return的用法:1、通过“return expression”语法返回一个表达式结果;2、使用“return(expr)”语法返回函数表达式;3、直接使用return返回值即可。本文操作环境:Windows7系统、PHP7.1、Dell G3电脑。基本用法:a)、r…

谷歌放出AI平民化大招: 李飞飞宣布推出AutoML云平台,让普通企业也能用上深度学习

作者:杨晓凡概要:谷歌云机器学习平台(Google Cloud AI)自从上线以来就以预训练的、可以直接调用的高效机器学习模型吸引了许多企业级用户在其上构建简单的机器学习应用。谷歌云机器学习平台(Google Cloud AI&#xff0…

AI博弈论:DeepMind让智能体在非对称博弈中找纳什均衡

Root 林鳞 编译自 DeepMind官方博客量子位 出品 | 公众号 QbitAI随着人工智能系统在现实世界中扮演越来越重要的角色,理解不同的系统如何相互作用至关重要。刚刚,DeepMind发表了一篇名为Symmetric Decomposition of Asymmetric Games的论文。在这篇论文中…

php ie 下载 乱码,php ie下载文件名乱码怎么办

php ie下载文件名乱码的解决办法:1、通过header方法解决乱码;2、通过“function remote_filesize($uri,$user,$pw) {...}”等方法解决乱码。php文件下载IE文件名乱码问题一直用chrome浏览器,没发现问题。今天用ie6,发现文件下载时…

无人驾驶技术排名:百度居中游,苹果特斯拉垫底 | 行业

来源:网易科技概要:其调查研究显示,无人驾驶汽车行业的现状已经发生了天翻地覆的变化,而特斯拉、苹果公司在今年的排名垫底。1月17日消息,据CNET网站报道,日前,美国市场研究机构Navigant Resear…

h5 换脸 php,【部分原创】python实现视频内的face swap(换脸)

1.准备工作,按博主的环境为准Python 3.5Opencv 3Tensorflow 1.3.1Keras 2cudnn和CUDA,如果你的GPU足够厉害并且支持的话,可以选择安装那就先安装起来,有兴趣的朋友给我个暗示,好让我有动力写下去,想实现整套…

接口隔离原则(ISP)

接口隔离原则(The Interface Segregation Interface) 这个原则用来处理“胖(fat)”接口(类的接口不是内聚的)所具有的缺点。“胖”接口可以分解成多组方法。 考虑一个安全系统,有一些Door对象&a…

马歇尔·赫伯特:人工智能的前沿技术与实例分析

来源:中国人工智能学会2017年12月11日,国际知名机器人专家、美国卡耐基梅隆大学机器人研究所所长马歇尔赫伯特(Martial Hebert)教授和首席科学家大卫伯恩(David Bourne)教授访问了中国科学技术大学参观中科大机器人实验室并作演讲。演讲人简介&#xff1…

ActiveMQ消费者平滑关闭

平滑关闭的思路就是让正在执行的任务线程正常执行完毕,然后再关闭JVM。在JVM关闭之前触发一个shutdown hook,jvm自带这个hook,在java启动时候就可以注册这样的hook。 ##1、简述JVM关闭钩子(shutdown hook) 首先JVM的关…

二叉堆时间复杂度 php,二叉堆(Binary Heap)

二叉堆这个数据结构有点意思,自己做了个总结,内容结构如下:二叉堆性质二叉堆操作应用二叉堆性质:堆(Heap)是一个可以被看成近似完全二叉树的结构,具有完全二叉树的特性:缺少的叶子节点总是位于右子节点n个节…

产业丨一文读懂人工智能产业链,未来10年2000亿美元市场

来源:国防科技信息网概要:针对人工智能产业链,主要有三个核心:基础技术、人工智能技术及人工智能应用,本文将从主要从这三个方面进行梳理。人工智能(Artificial Intelligence),英文缩…

2017年高性能计算领域的成功与失败

来源:中科院信息科技战略情报概要:2017年,机器学习和各种人工智能应用在高性能计算领域持续发挥着重要影响力。2017年12月9日,TOP500官网刊文总结了高性能计算在2017年取得的新进展,以及未来发展趋势,主要内…

Science封面:谁动了我的DNA?原来是你拿去做机器人了

来源:机器人大讲堂概要:慕尼黑工业大学的Friedrich C. Simmel团队使用DNA分子,组装出了一个可以远程控制的纳米机械臂,并用它成功推动了一个纳米金颗粒。本周《Science》期刊的封面故事,介绍了一款德国制造的灵活DNA手…

中国倒数第五!毕马威全球自动驾驶报告|附下载

来源:智东西概要:指向高效、安全的自动驾驶被认为是未来汽车形态,渐渐融入到各国汽车发展战略中去,科技公司和传统车企纷纷入局。指向高效、安全的自动驾驶被认为是未来汽车形态,渐渐融入到各国汽车发展战略中去&#…

潘建伟团队进行人类首次洲际量子通信,给奥地利发去了什么?

来源:澎湃新闻概要:世界首颗量子通信实验卫星完成目标;世界首条量子保密通信“京沪干线”开通;世界首次洲际量子通信……世界首颗量子通信实验卫星完成目标;世界首条量子保密通信“京沪干线”开通;世界首次…