白话大模型② | 如何提升AI分析的准确性?

白话大模型系列共六篇文章,将通俗易懂的解读大模型相关的专业术语。本文为第二篇:如何提升AI分析的准确性?

作者:星环科技 人工智能产品部

面对AI分析落地时的数量化、准确性、泛化性等问题,让我们稍微深入了解下当前的做法。

这里只做形式化的简要概述:

1.需求分解:将需求分解为若干个子问题,比如“人脸检索”可以分解为“人脸检测” 和“人脸识别”两个子问题;

2.技术手段:手工提取费时费力精度低,那么:

•建立映射关系:使用“数据驱动”的“深度学习”自动提取特征和建立人脸图像到人脸嵌入向量 的映射关系,再次提醒嵌入向量就是能描述人脸的一个多维度的向量;

•建立人脸卡片目录:使用这个映射关系,将人脸图像转化为 ID-人脸嵌入向量对;

•建立高效的查询方法:使用同样的映射关系,处理待查的图像,然后使用人脸卡片目录中的人脸嵌入向量,找到最相似的ID,然后再找到对应的人脸图像。

由此,我们构建出来了一个“人脸识别”的小工具的架子。但是问题在于:

1.怎么构建这样的映射关系?

答:用“数据驱动”的“机器学习”方法。

2.怎么建立人脸卡片目录和构建查询方法?

答:用各类“数据库”或者更广义的“信息检索技术”。加上引号的词汇,都是“术语”,我们不急于解释和类比,因为会产生更大的歧义。我们看看实际生产中,是怎么做的。

建立映射关系

• 数据采集 :采集大量的含有清晰可见的人脸数据,根据要求和“泛化性”不同,除了正脸,我们还需要侧脸、带口罩、大俯仰角、杂乱背景(比如人在花丛中)、多人脸(比如会议合影)等各种情况的数据;

• 数据清洗 :将明显不符合需求的数据剔除,比如:人脸不清晰、人脸不完整、人脸不在中心、人脸不是正脸、人脸不是人脸(比如是猫脸)等,再比如算法上有问题的:重复的(直接重复、有些位置移动/旋转的)、数据毒害的(故意数据投毒的、比如打印的人脸/面具而不是真实人脸的)等等,清洗出“高质量”数据实际工作远比看上去的复杂得多得多;

• 数据标注 :标注出 1. 人脸的位置(比如画一个框,将人头框入;但事实可能有更复杂的情况:比如准确绘制出一个多边形而不仅仅是长方形了,或者图像是 3D 的) 2. 其他信息(比如人的一些 ID/性别等属性)

• 特征提取 + 建立模型 :构建“人脸”(图像)到“人脸嵌入向量”(一串数字)的映射(构建方法我们叫“算法”):

• 这个映射是一个黑盒子,上面有很多旋钮,输入是“图像”,输出是“嵌入向量”;

• 我们只能调整旋钮来控制输出;

• 我们可以验证输出的结果是否符合我们的需求并作出:调整旋钮,考察我们预测出来的“人脸框”和其“ID”和标注的是否一样,不一样则调整,直到符合为止;

• 调整的过程我们叫“训练”,调整的方法我们叫“最优化方法”,使用的人力和组织形式可以理解成“算力”。不管是否符合普通人的认知:在使用了大量的数据后,我们可以得到一个“人脸嵌入向量” 的“映射关系”,也就是{黑盒子本身 + 旋钮的扭转档位},这个组合能够将“人脸图像” 转化为“人脸嵌入向量”,这个向量是一个多维度的数字,我们可以认为这个数字是“人脸”的“特征”。

• 模型提升:来了新情况,准确度等不够(比如识别不了带口罩的人脸),我们可以继续采集数据,然后重新训练模型,得到新的“映射关系”,做到提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/714830.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pycharm专业版本的安装

一 、到官网下载对应的pycharm安装包 也可以把安装软件(用物理机下载到共享文件夹) 然后进入Ubuntu系统把下载大的安装包剪贴到目标路径 1 在ubuntu中创建一个用来存放pycharm安装包的文件夹 rootzmq-virtual-machine:/home/zmq/Desktop# mkdir pycha…

京东云硬钢阿里云:承诺再低10%

关注卢松松,会经常给你分享一些我的经验和观点。 阿里云刚刚宣布史上最大规模的全线产品降价20%,这热度还没过,京东云当晚就喊话:“随便降、比到底!,全网比价,击穿低价,再低10%”,并…

[技巧]Arcgis之图斑四至范围批量计算

ArcGIS图层(点、线、面三类图形)四至范围计算 例外一篇介绍:[技巧]Arcgis之图斑四至点批量计算 说明:如下图画出来的框(范围标记不是很准) ,图斑的x最大和x最小,y最大,…

专为大模型训练优化,百度集合通信库 BCCL 万卡集群快速定位故障

1 集合通信对分布式训练至关重要 在分布式训练中,每一块 GPU 只负责处理部分模型或者数据。集群中不同 GPU 之间通过集合通信的方式,完成梯度同步和参数更新等操作,使得所有 GPU 能够作为一个整体加速模型训练。 如果有一块 GPU 在集合通…

1_SQL

文章目录 前端复习SQL数据库的分类关系型数据库非关系型数据库(NoSQL) 数据库的构成软件架构MySQL内部数据组织方式 SQL语言登录数据库数据库操作查看库创建库删除库修改库 数据库中表的操作选择数据库创建表删除表查看表修改表 数据库中数据的操作添加数…

性别和年龄的视频实时监测项目

注意:本文引用自专业人工智能社区Venus AI 更多AI知识请参考原站 ([www.aideeplearning.cn]) 性别和年龄检测 Python 项目 首先介绍性别和年龄检测的高级Python项目中使用的专业术语 什么是计算机视觉? 计算机视觉是使计算机能…

基于Camunda实现bpmn 2.0各种类型的任务

基于Camunda实现bpmn中各种类型任务 ​ Camunda Modeler -为流程设置器(建模工具),用来构建我们的流程模型。Camunda Modeler流程绘图工具,支持三种协议类型流程文件分别为:BPMN、DMN、Form。 ​ Camunda Modeler下载…

配置MySQL与登录模块

使用技术 MySQL,Mybatis-plus,spring-security,jwt验证,vue 1. 配置Mysql 1.1 下载 MySQL :: Download MySQL Installer 1.2 安装 其他页面全选默认即可 1.3 配置环境变量 将C:\Program Files\MySQL\MySQL Server 8.0\bin…

【Spring Boot 源码学习】BootstrapRegistry 初始化器实现

《Spring Boot 源码学习系列》 BootstrapRegistry 初始化器实现 一、引言二、往期内容三、主要内容3.1 BootstrapRegistry3.2 BootstrapRegistryInitializer3.3 BootstrapRegistry 初始化器实现3.3.1 定义 DemoBootstrapper3.3.2 添加 DemoBootstrapper 四、总结 一、引言 前面…

Avalonia学习(二十八)-OpenGL

Avalonia已经继承了opengl,详细的大家可以自己查阅。Avalonia里面启用opengl继承OpenGlControlBase类就可以了。有三个方法。分别是初始化、绘制、释放。 这里把官方源码的例子扒出来给大家看一下。源码在我以前发布的单组件里面。地址在前面的界面总结博文里面。 …

YOLOv9有效改进|使用空间和通道重建卷积SCConv改进RepNCSPELAN4

专栏介绍:YOLOv9改进系列 | 包含深度学习最新创新,主力高效涨点!!! 一、改进点介绍 SCConv是一种即插即用的空间和通道重建卷积。 RepNCSPELAN4是YOLOv9中的特征提取模块,类似YOLOv5和v8中的C2f与C3模块。 …

MySQL进阶:MySQL事务、并发事务问题及隔离级别

👨‍🎓作者简介:一位大四、研0学生,正在努力准备大四暑假的实习、 🌌上期文章:MySQL进阶:视图&&存储过程&&存储函数&&触发器 📚订阅专栏:MySQL进…

Docker Machine windows系统下 安装

如果你是 Windows 平台,可以使用 Git BASH,并输入以下命令: basehttps://github.com/docker/machine/releases/download/v0.16.0 &&mkdir -p "$HOME/bin" &&curl -L $base/docker-machine-Windows-x86_64.exe >…

点燃技能火花:探索PyTorch学习网站,开启AI编程之旅!

介绍:PyTorch是一个开源的Python机器学习库,它基于Torch,专为深度学习和科学计算而设计,特别适合于自然语言处理等应用程序。以下是对PyTorch的详细介绍: 历史背景:PyTorch起源于Torch,一个用于…

【真机Bug】异步加载资源未完成访问单例导致资源创建失败

1.错误表现描述 抽卡时,10抽展示界面为A。抽取内容可能是整卡或者碎片,抽到整卡,会有立绘展示和点击详情的按钮。点击详情后出现详情页B。【此时界面A预制体被销毁,卡片数据进入数据缓存池】点击页面B的返回按钮,单例…

C++——模版

前言:哈喽小伙伴们好久不见,这是2024年的第一篇博文,我们将继续C的学习,今天这篇文章,我们来习一下——模版。 目录 一.什么是模版 二.模版分类 1.函数模版 2.类模板 总结 一.什么是模版 说起模版,我们…

高性能通信之Netty

一, 同步IO(BIO)模型的架构 一般针对性能不高的情况下可以使用. 二,异步IO(NIO)模型的架构 多路复用(epoll模型):

【LeetCode:124. 二叉树中的最大路径和 + 二叉树+递归】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

【力扣hot100】刷题笔记Day19

前言 回溯回溯回溯!早上整理档案竟然用了桶排序,不愧是算法狂魔们 79. 单词搜索 - 力扣(LeetCode) DFS class Solution:def exist(self, board: List[List[str]], word: str) -> bool:m, n len(board), len(board[0])# used…

谈谈高并发系统的设计方法论

谈谈高并发系统的设计方法论 何为高并发系统?什么是并发(Conurrent)?什么是高并发(Hight Concurrnet)?高并发的衡量指标有哪些? 实现高并发系统的两大板块高并发系统应用程序侧的设计…