使用 mtcnn 和 facenet 进行人脸识别

一、前言

人脸识别目前有比较多的应用了,比如门禁系统,手机的人脸解锁等等,今天,我们也来实现一个简单的人脸识别。

二、思维导图

三、详细步骤

3.1 准备

3.1.1 facenet 权重文件下载

下载地址:https://drive.google.com/drive/folders/1pwQ3H4aJ8a6yyJHZkTwtjcL4wYWQb7bn,下载 facenet_keras_weights.h5权重文件到本地。

3.1.2 依赖库安装

pip 安装库的时候如果太慢,设置软件源的地址为清华源,设置命令:

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
依赖库作用安装命令
OpenCV一个用于计算机视觉和图像处理的开源库。用于处理图像和视频。pip install opencv-python
mtcnn人脸检测的深度学习模型pip install mtcnn
tensorflow开源的机器学习框架pip install tensorflow
mysql-connector-python连接 mysql 数据库pip install mysql-connector-python
3.1.3 目录结构说明
├─docs 存放文档
├─encodings 存放本地图像特征值
├─facenet_model 存放 facenet 权重文件
├─font 存放简体字体
├─test_faces 测试集
├─train_faces 训练集
├─src 存放代码

3.2 训练人脸

3.2.1 人脸训练集准备

train_faces 文件夹下新建 hu_ge文件夹,然后从社交网络上获取胡歌图片放进去,作为训练集。

一张人脸生成的特征值显然是不够的,因此我们需要多张人脸,不考虑过拟合的情况下,人脸越多越精确。

3.2.2 加载模型

这边加载模型是 ResNetV2,没有引用库,而是手动去构建神经网络的,我尝试去直接使用 ResNet 库没成功,部分构建代码:

def inception_resnet_v2():inputs = Input(shape=(160, 160, 3))# 第一层是一个卷积层,应用了 32 个大小为 3x3 的滤波器x = Conv2D(32, 3, strides=2, padding='valid', use_bias=False, name= 'Conv2d_1a_3x3') (inputs)# 对输入进行批量归一化x = BatchNormalization(axis=3, momentum=0.995, epsilon=0.001, scale=False, name='Conv2d_1a_3x3_BatchNorm')(x)# 应用 ReLU 激活函数x = Activation('relu', name='Conv2d_1a_3x3_Activation')(x)x = Conv2D(32, 3, strides=1, padding='valid', use_bias=False, name= 'Conv2d_2a_3x3') (x)x = BatchNormalization(axis=3, momentum=0.995, epsilon=0.001, scale=False, name='Conv2d_2a_3x3_BatchNorm')(x)x = Activation('relu', name='Conv2d_2a_3x3_Activation')(x)x = Conv2D(64, 3, strides=1, padding='same', use_bias=False, name= 'Conv2d_2b_3x3') (x)x = BatchNormalization(axis=3, momentum=0.995, epsilon=0.001, scale=False, name='Conv2d_2b_3x3_BatchNorm')(x)x = Activation('relu', name='Conv2d_2b_3x3_Activation')(x)x = MaxPooling2D(3, strides=2, name='MaxPool_3a_3x3')(x)x = Conv2D(80, 1, strides=1, padding='valid', use_bias=False, name= 'Conv2d_3b_1x1') (x)x = BatchNormalization(axis=3, momentum=0.995, epsilon=0.001, scale=False, name='Conv2d_3b_1x1_BatchNorm')(x)x = Activation('relu', name='Conv2d_3b_1x1_Activation')(x)x = Conv2D(192, 3, strides=1, padding='valid', use_bias=False, name= 'Conv2d_4a_3x3') (x)x = BatchNormalization(axis=3, momentum=0.995, epsilon=0.001, scale=False, name='Conv2d_4a_3x3_BatchNorm')(x)x = Activation('relu', name='Conv2d_4a_3x3_Activation')(x)x = Conv2D(256, 3, strides=2, padding='valid', use_bias=False, name= 'Conv2d_4b_3x3') (x)x = BatchNormalization(axis=3, momentum=0.995, epsilon=0.001, scale=False, name='Conv2d_4b_3x3_BatchNorm')(x)x = Activation('relu', name='Conv2d_4b_3x3_Activation')(x)

这边就涉及到神经网络比较底层的知识,我也不太懂,我就直接使用了。
加载完模型后,加载 facenet 权重文件。
最后再加载 mtcnn 来识别人脸。

face_encoder = inception_resnet_v2()
facenet_weight_path = "../facenet_model/facenet_keras_weights.h5"
face_encoder.load_weights(facenet_weight_path)face_detector = mtcnn.MTCNN()
3.2.3 读取图片、转换颜色空间

OpenCV 读取图片默认是以 BGR 颜色空间,如果我们要给 mtcnn识别人脸,要先转为 RGB 颜色空间。

# 读取图片
img_BGR = cv2.imread(image_path)
# 将一幅图像从 BGR(蓝绿红)颜色空间转换为 RGB(红绿蓝)颜色空间
img_RGB = cv2.cvtColor(img_BGR, cv2.COLOR_BGR2RGB)
3.2.4 mtcnn 识别人脸具体位置

MTCNN 是一种检测图像上的人脸和面部标志的神经网络。

x = face_detector.detect_faces(img_RGB)
print(x)

mtcnn 会生成人脸框的坐标和人脸上五个关键点的坐标,分别是左眼,右眼,鼻子,嘴唇的左边界,嘴唇的右边界。

{'box': [468, 98, 195, 249],'confidence': 0.9999933242797852,'keypoints': {'left_eye': (534, 190),'right_eye': (624, 186),'nose': (590, 236),'mouth_left': (549, 294),'mouth_right': (620, 291)}
}

显示一下:

# 人脸的框的左上角坐标和宽高
x1, y1, width, height = x[0]['box']
x1, y1 = abs(x1), abs(y1)
x2, y2 = x1 + width, y1 + height
# 绘制人脸框
cv2.rectangle(img_BGR, (x1, y1), (x2, y2), (0, 255, 0), 2)
# 绘制人脸关键点
for keypoint, coordinates in x[0]['keypoints'].items():cv2.circle(img_BGR, coordinates, 2, (0, 0, 255), -1)
# 显示
cv2.imshow('Detected Face', img_BGR)
cv2.waitKey(0)
cv2.destroyAllWindows()

# 裁剪出人脸部分
face = img_RGB[y1:y2, x1:x2]
3.2.5 归一化、设置图片大小、生成图像特征值

归一化,将像素值从 [0, 255] 归一化到 [0, 1],如果训练的特征分布和测试的差异很大,那么对输入数据进行归一化,可以在训练和测试过程中保持一致的特征分布。

def normalize(img):"""归一化处理:将数据缩放到均值为 0,标准差为 1 的标准正态分布像素值通常是在 0 到 255 的范围内。例如,将像素值从 [0, 255] 归一化到 [0, 1]。:param img::return: 归一化结果"""# 获取所有像素的平均值,标准差mean, std = img.mean(), img.std()return (img - mean) / std

face_encoder.predict(face_d)[0]这个函数可以对输入的人脸图像进行特征提取,我们这边只获取单张人脸的特征,所以取下标 0。

face = normalize(face)# 重新设置大小
face = cv2.resize(face, required_shape)
# 扩展(增加)数组的维度
face_d = np.expand_dims(face, axis=0)
encode = face_encoder.predict(face_d)[0]
encodes.append(encode)

encode 只是一张图像的特征值,我们要训练很多张才能实现泛化效果比较好的模型,因此用 encodes 存放每一张图像的特征值。

3.2.6 特征求和、存放到数据库中
if encodes:# 特征求和# 计算每一列的总和encode = np.sum(encodes, axis=0)# 将特征向量标准化为单位向量encode = l2_normalizer.transform(np.expand_dims(encode, axis=0))[0]image_feature = base64.b64encode(encode).decode('utf-8')# 获取标签中文名 hu_ge -> 胡歌label_chinese_name = get_label_chinese_name(face_names)encoding_dict[face_names] = encodesave_image_feature(face_names, label_chinese_name, image_feature)

3.3 测试人脸

将需要测试的人脸图片放在 test_faces 文件夹下,这四张都是全新的图片,模型不知道的,这样才可以进行预测。

也是对每一张图像生成人脸的特征值,然后和数据库中的特征值进行比较。

dist = cosine(input_feature, image_feature)

**在机器学习中,欧氏距离用于特征空间中样本之间的相似性度量,通过 ****cosine**函数计算相似度,只要小于相似度阈值,我们就认为属于同一张人脸。

原来我是设置成 0.5,可能由于训练的样本数太少,不是冯提莫的图片也会被认为是冯提莫,造成错误识别,它的值是 0.480.49 这样,后面我改成 0.4 就好了。
冯提莫和胡歌的人脸特征我提前训练好了,因此这边可以识别到,杨幂和宋轶没有训练,所以识别不到,显示未知。

四、参考资料

  • facenet
  • mtcnn
  • Face Detection using MTCNN

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/188388.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高等数学中的近似计算

今天来总结一下同济版高数中有关近似计算的例子,总的来说是如下的三种,有遗漏的话可以在评论区指出~ 目录 一.微分在近似计算中的应用 二.全微分在近似计算中的应用 三.函数的幂级数展开在近似计算的应用 一.微分在近似计算中的应用 本质原理是&am…

机器学习的复习笔记3-回归的细谈

一、回归的细分 机器学习中的回归问题是一种用于预测连续型输出变量的任务。回归问题的类型和特点如下: 线性回归(Linear Regression):线性回归是回归问题中最简单的一种方法。它假设自变量与因变量之间存在线性关系&#xff0c…

SpringBoot+Redis获取电脑信息

获取电脑信息 测试 System.getProperties(); System: 是Java中的一个内置类,用于提供与系统相关的功能和信息。这个类中包含了一些静态方法和常量,可以让您方便地访问和操作系统级别的资源。 getProperties(): 是一个静态方法,它返回一个表示…

【Azure 架构师学习笔记】- Azure Databricks (1) - 环境搭建

本文属于【Azure 架构师学习笔记】系列。 本文属于【Azure Databricks】系列。 前言 Databricks 已经成为了数据科学的必备工具,今时今日你已经很难抛开它来谈大数据,它常用于做复杂的ETL中的T, 数据分析,数据挖掘等,…

TA-Lib学习研究笔记(二)——Overlap Studies下

TA-Lib学习研究笔记(二)——Overlap Studies下 (11)SAR - Parabolic SAR 抛物线指标 函数名:SAR 名称: 抛物线指标 简介:抛物线转向也称停损点转向,是利用抛物线方式,随…

在Android上搭建一个NDK项目

首先New Project,选择Native C,点击Next。 填入项目名称和包名,点击Next。 这里我们选择Cmake默认的C版本。 创建好的项目目录,里面比我们正常的Android项目多了一个cpp目录 打开MainActivity。里面定义了一个jni方法stringFromJN…

ubantu配置网卡ip

1.ifconfig查看网卡 2. vi /etc/network/interfaces auto ens33 # 网卡名 iface ens33 inet static # 注意网卡名 address 192.168.43.10 # 配置ip地址 netmask 255.255.255.0 # 掩码 gateway 192.168.43.1 # 网关 3.重启网卡 ifconfig ens33 down ifco…

如何判断数据库慢 SQL 查询?

慢 SQL 查询通常指执行时间较长或者消耗大量系统资源的查询。要判断一个 SQL 查询是否慢,可以考虑以下几个方面: 执行时间: 观察查询执行所需的时间。如果一个查询花费了相对较长的时间才能返回结果,可能就是慢查询的一个指标。通…

visual Studio MFC 平台实现图像增强中Gray-level slicing,Bit-plane slicing,对比度拉伸三种方法

MFC 实现图像增强–分段式变换 本文使用visual Studio MFC 平台实现图像增强中的第三大类分段式变换中的三种方法,包括Gray-level slicing,Bit-plane slicing,对比度拉伸. 关于其他MFC单文档工程可参考 01-Visual Studio 使用MFC …

【性能测试】性能分析和调优——步骤及案例

文章目录 性能测试瓶颈分析常见的性能瓶颈分析性能调优性能调优步骤 性能调优案例案例一——CPU案例二——网络案例三——SQL查询案例四——JVM内存溢出 阅读前建议先了解前一篇文章:【性能测试】性能测试监控关键指标 性能测试瓶颈分析 常见的性能瓶颈分析 1、服…

Excel导入操作

<template><el-dialogwidth"500px"title"员工导入":visible"showExcelDialog"close"$emit(update:showExcelDialog, false)"><el-row type"flex" justify"center"><div class"upload-e…

css 三栏布局的实现

三栏布局在前端页面设计中是一个常见的布局方式&#xff0c;通常包含左侧、中间和右侧三个部分。这种布局方式在多种场景中都很受欢迎&#xff0c;例如博客、新闻网站和企业官网。本文将详细介绍三栏布局的实现方法&#xff0c;包括用法、代码、深入理解&#xff0c;以及配合高…

目标检测——Mask R-CNN算法解读

论文&#xff1a;Mask R-CNN 作者&#xff1a;Kaiming He Georgia Gkioxari Piotr Dollar Ross Girshick 链接&#xff1a;https://arxiv.org/abs/1703.06870 代码&#xff1a;https://github.com/facebookresearch/Detectron R-CNN系列其他文章&#xff1a; R-CNN算法解读SPP…

List集合,遍历,数据结构

一.List常见的方法&#xff1a; 二. List集合的遍历方式 除了 迭代器遍历 增强for遍历 Lambda表达式遍历&#xff0c;还有自己独有的普通for遍历&#xff0c;列表迭代器遍历 1.迭代器遍历 2.增强for遍历 3.Lambda表达式遍历 4.普通for遍历 5.列表迭代器遍历 列表迭代器相对于…

CCFCSP试题编号:202009-2试题名称:风险人群筛查

#include <iostream> using namespace std;//判断是否在区域 bool isIn(int xl, int yd, int xr, int yu, int x, int y) {if ((x > xl && x < xr) && (y > yd && y < yu)){return true;}return false; }struct position {int a, b;…

HashMap底层实现原理详解

一、HashMap重要知识点 HashMap是无序且不安全的数据结构。HashMap 是以key–value对的形式存储的&#xff0c;key值是唯一的&#xff08;可以为null&#xff09;&#xff0c;一个key只能对应着一个value&#xff0c;但是value是可以重复的。HashMap 如果再次添加相同的key值&…

管理Windows资产新方式:SSH协议

配置默认shell&#xff0c;需要管理员权限运行powershell执行下面命令&#xff1a; New-ItemProperty -Path "HKLM:\SOFTWARE\OpenSSH" -Name DefaultShell -Value "C:\Windows\System32\WindowsPowerShell\v1.0\powershell.exe" -PropertyType String -F…

安卓小程序与编译抓包

APK小程序渗透测试 查找bp的证书 在浏览器中打开bp代理&#xff0c;然后在网页中搜索hppps://burp 点击高级——接受风险并继续 拿到证书 将浏览器信任证书 打开设置 搜索证书——查看证书 点击导入——导入证书 证书验证成功后&#xff0c;访问网页&#xff08;吾爱破解&a…

iOS 开发高效率工具包:10 大必备工具

​ 作为 iOS 开发人员&#xff0c;拥有合适的工具可以极大地提高您的工作效率和工作质量。无论您是刚刚起步还是已经开发 iOS 应用程序多年&#xff0c;以下是每个 iOS 开发人员都应该了解的 10 大必备工具。 让我们开始 Xcode Xcode 是用于 iOS 开发的官方 IDE&#xff08;…

【Windows】内网穿透实现hMailServer远程发送邮件

目录 前言1. 安装hMailServer2. 设置hMailServer3. 客户端安装添加账号4. 测试发送邮件5. 安装cpolar6. 创建公网地址7. 测试远程发送邮件8. 固定连接公网地址9. 测试固定远程地址发送邮件 前言 hMailServer 是一个邮件服务器,通过它我们可以搭建自己的邮件服务,通过cpolar内网…