媒体捕捉-iOS中的人脸识别

引言

在如今的移动应用和直播场景中,我们常常能体验到一种颇具趣味与互动性的功能:无论是美颜相机中的萌趣贴纸精准附着于人脸关键点上,还是主播们在直播时实时戴上可爱的虚拟动物耳朵或动态装饰物,这些令人眼前一亮的效果背后,都离不开人脸识别技术的支持。自iOS 6起,苹果引入了对AV Foundation框架中的人脸检测功能,这一突破性更新使得应用程序能够实时捕捉并精确定位多达10张人脸的特征信息。

介绍

方案:

人脸识别的整体实现方案与其它媒体捕捉的实现方案并没有很大区别,或者说所有媒体捕捉的实现都是这个步骤:

  1. 配置会话:配置AVCaptureSession,添加AVCaptureDeviceInput,添加AVCaptureOutput
  2. 启动会话:AVCaptureSession startRunning
  3. 停止会话(如果需要)AVCaptureSession  stopRunning。

具体实现在这里就贴代码了,有需要可以查看这篇文章媒体捕捉-iOS自定义二维码扫描功能-CSDN博客。

重点类

AVCaptureMetadataOutput

通过运用AVCaptureOutput家族中的特定类型AVCaptureMetadataOutput,开发者得以获取设备摄像头实时捕获的视频流,并从中提取出有价值的人脸元数据。这种输出并非普通的图像数据,而是封装在AVMetadataObject抽象类内的结构化信息,该类提供了一个通用接口来处理包括但不限于人脸在内的多种类型的元数据对象。

AVMetadataFaceObject

当开启人脸检测模式时,系统会智能识别出人脸区域,并以具体的子类AVMetadataFaceObject的形式输出详细的面部信息。这一技术层面的革新不仅丰富了用户在社交、娱乐等领域的交互体验,更为广泛应用如AR增强现实、虚拟妆容、表情识别等领域奠定了坚实的基础。

实现

因为实现的步骤和其它媒体捕捉的实现步骤几乎相同,所以我们把重点集中到添加会话输出和元数据处理这两个上面。

会话输出:

实现setupSessionOutputs:方法,创建一个新的AVCaptureMetaDataOutput实例并把它添加为捕捉会话的输出。

设置metadataobjectTypes属性指定对象输出的元数据类型为AVMetaObjectTypeFace。AV Foundation支持多种元数据类型的识别,所以当我们只对人脸元数据感兴趣时,需要明确指出。

//MARK:配置会话输出方法
- (BOOL)setupSessionOutputs:(NSError *__autoreleasing  _Nullable *)error{self.metadataOutput = [[AVCaptureMetadataOutput alloc] init];if ([self.captureSession canAddOutput:self.metadataOutput]) {[self.captureSession addOutput:self.metadataOutput];NSArray * metadataObjectTypes = @[AVMetadataObjectTypeFace];self.metadataOutput.metadataObjectTypes = metadataObjectTypes;dispatch_queue_t mainQueue = dispatch_get_main_queue();[self.metadataOutput setMetadataObjectsDelegate:self queue:mainQueue];return YES;}else{return NO;}
}
数据处理:

当有新的人脸元数据被检测到之后,AVCaptureMetadataOutput会回调它代理的captureOutput:didOutputMetadataObjects:fromConection方法。

//MARK:检测到指定兴趣点的代理
- (void)captureOutput:(AVCaptureOutput *)output didOutputMetadataObjects:(NSArray<__kindof AVMetadataObject *> *)metadataObjects fromConnection:(AVCaptureConnection *)connection{for (AVMetadataFaceObject * face in metadataObjects) {NSLog(@"Face detected with ID:%li",(long)face.faceID);NSLog(@"Face bounds:%@",NSStringFromCGRect(face.bounds));}[self.faceDetectionDelegate didDetectFaces:metadataObjects];
}

我们将获取到的人脸元数据传递到预览视图previewView来进行处理,在预览视图中首先调用了一个transformedCodesFromCodes:方法,只是我们自己定义的方法,在里面我们只是调用了AVCaptureVideoPreviewLayer提供的坐标转发方法将设备坐标空间元数据对象转换为视图坐标空间对象。

//MARK:代理 检测到人脸数组
- (void)didDetectFaces:(nonnull NSArray *)faces {NSArray * transformedFaces = [self transformedFacesFromFaces:faces];}
//MARK:坐标转换
- (NSArray *)transformedFacesFromFaces:(NSArray *)faces{NSMutableArray * transformedFaces = [NSMutableArray array];for (AVMetadataObject * face in faces) {AVMetadataObject * transformedFace = [self.previewLayer transformedMetadataObjectForMetadataObject:face];[transformedFaces addObject:face];}return transformedFaces;
}

接下来从一个全局的人脸图层存储字典中获取所有的key组成一个待丢弃的人脸id数组。然后遍历数组将已经获取到的人脸id从带丢弃的人脸id数组中移除。然后获取或者创建新的人脸layer并设置frame及transform参数。此处代码主要实现的功能是让人脸layer追踪人脸移动,并标记已经消失的人脸layer。

- (void)didDetectFaces:(nonnull NSArray *)faces {NSArray * transformedFaces = [self transformedFacesFromFaces:faces];NSMutableArray * lostFaces = [self.faceLayers.allKeys mutableCopy];for (AVMetadataFaceObject * face in transformedFaces) {NSNumber * faceID = @(face.faceID);[lostFaces removeObject:faceID];CALayer * layer = self.faceLayers[faceID];if (!layer) {//没有则创建layer = [self makeFaceLayer];[self.overlayLayer addSublayer:layer];self.faceLayers[faceID] = layer;}layer.transform = CATransform3DIdentity;layer.frame = face.bounds;}for (NSNumber * faceID in lostFaces) {CALayer * layer = self.faceLayers[faceID];[layer removeFromSuperlayer];[self.faceLayers removeObjectForKey:faceID];}
}
//MARK:创建标记人脸layer
- (CALayer *)makeFaceLayer{CALayer * layer = [CALayer layer];layer.borderWidth = 5.0;layer.borderColor = [UIColor colorWithRed:0.188 green:0.517 blue:0.877 alpha:1.00].CGColor;return layer;
}

此时我们就已经可以绘制出人脸在预览视图中的frame了,但距离精确跟踪还差一点小步骤。

要实现这个功能,我们需要读取AVMetadataFaceObject中的rollAngle(滚动角-绕z轴)和yawAngle(偏转角-绕y轴),并将人脸图层layer进行相应的仿射变化。

for (AVMetadataFaceObject * face in transformedFaces) {NSNumber * faceID = @(face.faceID);[lostFaces removeObject:faceID];CALayer * layer = self.faceLayers[faceID];if (!layer) {//没有则创建layer = [self makeFaceLayer];[self.overlayLayer addSublayer:layer];self.faceLayers[faceID] = layer;}layer.transform = CATransform3DIdentity;layer.frame = face.bounds;if (face.hasRollAngle) {CATransform3D t = [self transformForRollAngle:face.rollAngle];layer.transform = CATransform3DConcat(layer.transform, t);}if (face.hasYawAngle) {CATransform3D t = [self transformForYawAngle:face.yawAngle];layer.transform = CATransform3DConcat(layer.transform, t);}}

仿射变化的代码如下:

//MARK:绕z轴旋转
- (CATransform3D)transformForRollAngle:(CGFloat)rollAngleInDegress{CGFloat rollAngleInRadians = THDegreesToRadians(rollAngleInDegress);return CATransform3DMakeRotation(rollAngleInRadians, 0.0, 0.0, 1.0);
}
//MARK:绕y轴旋转
- (CATransform3D)transformForYawAngle:(CGFloat)yawAngleInDegress{CGFloat yawAngleInRadians = THDegreesToRadians(yawAngleInDegress);CATransform3D yawTransform = CATransform3DMakeRotation(yawAngleInRadians, 0.0, -1.0, 0.0);return CATransform3DConcat(yawTransform, [self orientationTransform]);
}
//MARK:角度转弧度
static CGFloat THDegreesToRadians(CGFloat degress){return degress * M_PI / 180;
}
- (CATransform3D)orientationTransform{CGFloat angle = 0.0;switch ([UIDevice currentDevice].orientation) {case UIDeviceOrientationPortraitUpsideDown:angle = M_PI;break;case UIDeviceOrientationLandscapeRight:angle = -M_PI / 2.0;break;case UIDeviceOrientationLandscapeLeft:angle = M_PI / 2.0;break;default:angle = 0.0;break;}return CATransform3DMakeRotation(angle, 0.0, 0.0, 1.0);
}

结语

以上就是使用AV Foundation进行人脸检测的所有关键步骤,已经实现了一个比较粗糙的人脸识别的用户界面。要真正实现将帽子,贴纸等显示在人脸上并且拍照或者直播,还需要与其它框架的技术相结合,比如Quartz框架,或者OpenGL等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/630196.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis的常用场景有哪些?

1、缓存 缓存现在几乎是所有中大型网站都在用的必杀技&#xff0c;合理的利用缓存不仅能够提升网站访问速度&#xff0c;还能大大降低数据库的压力。Redis提供了键过期功能&#xff0c;也提供了灵活的键淘汰策略&#xff0c;所以&#xff0c;现在Redis用在缓存的场合非常多。 …

算法训练营Day42

#Java #动态规划 # Feeling and experiences&#xff1a; 买卖股票的最佳时机III&#xff1a;力扣题目链接 给定一个数组&#xff0c;它的第 i 个元素是一支给定的股票在第 i 天的价格。 设计一个算法来计算你所能获取的最大利润。你最多可以完成 两笔 交易。 注意&#x…

docker:环境安装

系列文章目录 docker&#xff1a;环境安装 文章目录 系列文章目录前言一、Debian安装1.镜像下载2.VM安装3.Debian安装 二、docker安装1.Debian12换源2.docker安装3.docker测试4.docker换源 总结 前言 因为CentOS7确定停服时间为6月30日&#xff0c;虽然对我这种小虾米没啥影响…

dubbox框架

1、dubbox介绍 Dubbo(读音[ˈdʌbəʊ])是阿里巴巴公司开源的一个基于Java的高性能RPC&#xff08;Remote Procedure Call&#xff09;框架&#xff0c;使得应用可通过高性能的 RPC 实现服务的输出和输入功能&#xff0c;可以和 Spring框架无缝集成。后期阿里巴巴停止了该项目…

机器学习之样本及统计量

在数理统计中,称研究对象的全体为总体,组成总体的每个基本单元叫个体。从总体X中随机抽取一部分个体 X 1 , X 2 , . . . , X N X_1,X_2,...,X_N X1​,X2​,...,XN​称 X 1 , X 2 , . . . , X N X_1,X_2,...,X_N X1​,X2​,...,XN​为取自X的容量为n的样本。 实际上,数理统计…

HashMap集合万字源码详解(面试常考)

文章目录 HashMap集合1.散列2.hashMap结构3.继承关系4.成员变量5.构造方法6.成员方法6.1增加方法6.2将链表转换为红黑树的treeifyBin方法6.3扩容方法_resize6.3.1扩容机制6.3.2源码resize方法的解读 6.4 删除方法(remove)6.5查找元素方法(get)6.6遍历HashMap集合几种方式 7.初始…

vue安装组件报错In most cases you are behind a proxy or have bad network settings.

解决办法 步骤1 npm config get proxy npm config get https-proxy 如果2个返回值不为null&#xff0c;请执行下面代码&#xff0c;重置为null。否则&#xff0c;直接执行步骤2。 npm config set proxy null npm config set https-proxy null 步骤2 npm config set regis…

cv 不能正常读取中文路径

之前一直以为是PyQT的getOpenFileNames方法不能读取中文路径的。多次尝试后发现不是&#xff0c;是OpenCV的问题。 self.selected_imgPaths, _ QtWidgets.QFileDialog.getOpenFileNames(self, "打开图片", "./pending_images", "*.jpg;;*.JPG;;*.png…

【Windows取证篇】Window日志分析基础知识(一)

【Windows取证篇】Window日志分析基础知识&#xff08;一&#xff09; Windows系统审计是对系统中有关安全的活动进行记录、检查以及审核&#xff0c;一般是一个独立的过程。Window自带的事件查看器并没有提供删除特定日志的功能&#xff0c;我们在系统审计取证分析时&#xf…

【卡梅德生物】纳米抗体文库构建

纳米抗体文库构建服务是一项提供定制化纳米抗体文库的服务&#xff0c;旨在满足研究者和生物制药公司对高质量抗体的需求。这项服务通常包括以下主要步骤&#xff1a; 1.抗原设计和制备&#xff1a; -客户提供目标抗原信息&#xff0c;或由服务提供商协助设计抗原。 -抗原制…

基于Java+SSM志愿者服务管理系统详细设计和实现【附源码】

基于JavaSSM志愿者服务管理系统详细设计和实现【附源码】 &#x1f345; 作者主页 央顺技术团队 &#x1f345; 欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; &#x1f345; 文末获取源码联系方式 &#x1f4dd; &#x1f345; 查看下方微信号获取联系方式 承接各种定制系…

九、Qt C++ 数据库开发

《一、QT的前世今生》 《二、QT下载、安装及问题解决(windows系统)》《三、Qt Creator使用》 ​​​ 《四、Qt 的第一个demo-CSDN博客》 《五、带登录窗体的demo》 《六、新建窗体时&#xff0c;几种窗体的区别》 《七、Qt 信号和槽》 《八、Qt C 毕业设计》 《九、Qt …

Vue-23、Vue收集表单数据

1、效果 2、代码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>收集表单数据</title><script type"text/javascript" src"https://cdn.jsdelivr.net/npm/vue2/dist/vue.js…

服务网关 Gateway

服务网关 Gateway Spring Cloud Gateway 是 Spring Cloud 生态系统中的网关&#xff0c;它基于 Spring5.0 SpringBoot2.0 WebFlux&#xff08;基于高性能的 Reactor 模式响应式通信框架 Netty&#xff0c;异步非阻塞模型&#xff09;等技术开发。旨在为微服务架构提供一种简…

GO基础进阶篇 (十三)、泛型

泛型 先看一下这段代码。 package mainimport "fmt"func main() {strs : []string{"a", "b"}printArray(strs) }func printArray(arr []interface{}) {for _, a : range arr {fmt.Println(a)} }上面的代码中&#xff0c;我们想要打印参数arr的…

Ubuntu系统使用快速入门实践(八)——出现的各种问题

Ubuntu系统使用快速入门实践系列文章 下面是Ubuntu系统使用系列文章的总链接&#xff0c;本人发表这个系列的文章链接均收录于此 Ubuntu系统使用快速入门实践系列文章总链接 下面是专栏地址&#xff1a; Ubuntu系统使用快速入门实践系列文章专栏 文章目录 Ubuntu系统使用快速…

Eclipse搭建python环境

一、下载eclipse eclipse官网下载参考链接 二、 下载PyDev ​PyDev 三、安装和配置pyDev 下载完PyDev&#xff0c;解压之后是下面两个文件夹&#xff0c;我下载的版本是PyDev 7.7 ,然后拷到eclipse对应的目录下就可以 四、然后新建一个python程序 1.新建一个项目 ​​…

【C语言】数据结构——排序三(归并与计数排序)

&#x1f497;个人主页&#x1f497; ⭐个人专栏——数据结构学习⭐ &#x1f4ab;点击关注&#x1f929;一起学习C语言&#x1f4af;&#x1f4ab; 目录 导读&#xff1a;1. 归并排序1.1 基本思想1.2 递归实现1.3 非递归实现 2. 计数排序2.1 基本思想2.2 代码实现 导读&#x…

VSCODE上使用IDEA上的快捷键:IntelliJ IDEA Keybindings

&#x1f341; 作者&#xff1a;知识浅谈&#xff0c;CSDN签约讲师&#xff0c;CSDN博客专家&#xff0c;华为云云享专家&#xff0c;阿里云专家博主 &#x1f4cc; 擅长领域&#xff1a;全栈工程师、爬虫、ACM算法 &#x1f492; 公众号&#xff1a;知识浅谈 &#x1f525;网站…

git项目管理

Git工作流程图 git 基础指令 git init #创建本地仓库,创建成功后&#xff0c;当前目录会多一个.git文件夹 git status #查看修改状态 git add . #添加工作区到暂存区 git commit -m 注释内容 #提交暂存区到本地仓库&#xff08;commit&#xff09; git log …