【专利 超音速】基于分类模型的轻量级工业图像关键点检测方法

申请号CN202311601629.7
公开号(公开)CN117710683A
申请日2023.11.27
申请人(公开)超音速人工智能科技股份有限公司
发明人(公开)张俊峰(总); 杨培文(总); 沈俊羽; 张小村

摘要

本发明涉及一种基于分类模型的轻量级工业图像关键点检测方法,包括以下步骤:将待检测图像输入特征提取网络,通过特征提取网络提取关键点的图像特征;将图像特征输入网络输出头中,通过网络输出头输出关键点的预测横坐标、预测纵坐标和预测可见性;在待检测图像上标注关键点,并将关键点映射到横坐标轴和纵坐标轴上,计算关键点的横坐标与预测横坐标的第一损失值、纵坐标与预测纵坐标的第二损失值以及真实可见性信息与预测可见性的第三损失值。本发明能满足低算力设备的实时运行需求,并基于分类模型消除基于热图模型的理论误差下界,通过增加关键点的可见性损失函数,避免检测出不存在的关键点。

我的理解

基于分类模型的轻量级工业图像关键点检测方法,包括以下步骤:
一,将待检测图像输入特征提取网络,通过特征提取网络提取关键点的图像特征;
二,将图像特征输入网络输出头中,通过网络输出头输出关键点的预测横坐标、预测纵坐标和预测可见性;
三,在待检测图像上标注关键点,并将关键点映射到横坐标轴和纵坐标轴上,计算关键点的横坐标与预测横坐标的第一损失值、纵坐标与预测纵坐标的第二损失值以及真实可见性信息与预测可见性的第三损失值,根据第一损失值、第二损失值和第三损失值总损失值,并判断总损失值能否通过阈值,若不能则筛选掉该关键点。
四,所述特征提取网络包括步长为1的卷积和MobileNetV3smal l中的一层倒残差结构。
五,,所述网络输出头包括纵坐标分类头、横坐标分类头和可见性分类头,所述纵坐标分类头预测关键点的纵坐标,所述横坐标分类头预测关键点的横坐标,所述可见性分类头预测关键点的可见性。
六,所述纵坐标分类头预测关键点的纵坐标包括以下步骤:
a,将图像特征经过横坐标方向步长为2、纵坐标方向步长为1的二维卷积和ReLU激活函数后,得到图像特征y1;
b,将特征y1经过横坐标方向步长为2、纵坐标方向步长为1的二维卷积和ReLU激活函数后,得到图像特征y2;
c,将特征y2横坐标方向的特征进行全局池化后,得到特征y3;
d,将特征y3经过一维反卷积后,得到特征y4;
e,将特征y4经过一维反卷积和ReLU激活函数后,得到关键点的预测纵坐标。
六,所述横坐标分类头预测关键点的横坐标包括以下步骤:
a,将图像特征经过横坐标方向步长为1、纵坐标方向步长为2的二维卷积和ReLU激活函数后,得到图像特征x1;
b,将特征x1经过横坐标方向步长为1、纵坐标方向步长为2的二维卷积和ReLU激活函数后,得到图像特征x2;
c,将特征x2纵坐标方向的特征进行全局池化后,得到特征x3;
d,将特征x3经过一维反卷积后,得到特征x4;
e,将特征x4经过一维反卷积和ReLU激活函数后,得到关键点的预测横坐标。
七,所述可见性分类头预测关键点的可见性包括以下步骤:
将图像特征经过两次横坐标方向和纵坐标方向均为4的卷积,使图像特征的长宽变为原来的1/64,再将卷积后的图像特征进行全局化和全连接操作后,得到关键点的预测可见性。
八,,计算关键点的横坐标与预测横坐标的第一损失值和纵坐标与预测纵坐标的第二损失值,包括以下步骤:
将关键点映射到横坐标轴和纵坐标轴后,形成横坐标方向上的one-hot编码和纵坐标方向上的one-hot编码,再用交叉熵损失函数计算横坐标方向上的one-hot编码与横坐标预测的第一损失值,和纵坐标方向上的one-hot编码与纵坐标预测的第二损失值。
九:计算关键点真实可见性信息与预测可见性的第三损失值的方法包括:
用二值交叉熵损失函数计算关键点真实可见性信息和预测可见性的第三损失值。
十:总损失值为第一损失值、第二损失值和第三损失值的加权和,第一损失值、第二损失值和第三损失值的权重分别根据横坐标、纵坐标和可见性的预测难度确定,预测难度与权重成正比。

扩展阅读

视频课程

先学简单的课程,请移步CSDN学院,听白银讲师(也就是鄙人)的讲解。
https://edu.csdn.net/course/detail/38771

如何你想快速形成战斗了,为老板分忧,请学习C#入职培训、C++入职培训等课程
https://edu.csdn.net/lecturer/6176

相关推荐

我想对大家说的话
《喜缺全书算法册》以原理、正确性证明、总结为主。
按类别查阅鄙人的算法文章,请点击《算法与数据汇总》。
有效学习:明确的目标 及时的反馈 拉伸区(难度合适) 专注
闻缺陷则喜(喜缺)是一个美好的愿望,早发现问题,早修改问题,给老板节约钱。
子墨子言之:事无终始,无务多业。也就是我们常说的专业的人做专业的事。
如果程序是一条龙,那算法就是他的是睛

测试环境

操作系统:win7 开发环境: VS2019 C++17
或者 操作系统:win10 开发环境: VS2022 C++17
如无特殊说明,本算法用**C++**实现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/21788.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

外星人Alienware m16R1 原厂Windows11系统 oem系统

装后恢复到您开箱的体验界面,包括所有原机所有驱动AWCC、Mydell、office、mcafee等所有预装软件。 最适合您电脑的系统,经厂家手调试最佳状态,性能与功耗直接拉满,体验最原汁原味的系统。 原厂系统下载网址:http://w…

VB.net实战(VSTO):Excel插件设计Ribbon界面

1. 新建Ribbon 1.1 开发环境 Visual Studio 2022 1.2 解决方案资源管理器中右击My Project 1.3 添加》新建项 1.4 office/SharePoint》功能区(可视化设计器),双击 2.调出工具箱 Visual Studio 2022》视图》工具箱 3.设计界面 3.1 添加功能区选项卡 3.2拖动Group…

深度强化学习+大模型综述Survey on Large Language Model-Enhanced Reinforcement Learning

论文地址:[2404.00282] Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods (arxiv.org) 摘要 对 LLM 增强 RL 中现有文献进行了全面的回顾,并总结了其与传统 RL 方法相比的特征,旨在阐明未…

混合A*算法详解(一)路径搜索

描述 为了学习一下混合A*算法,我前面介绍了车辆运动学及非完整约束、差速轮及阿克曼运动学模型、Dubins曲线和RS曲线,现在终于可以看一下混合A*算法的相关内容了。 原文名称:Practical Search Techniques in Path Planning for Autonomous D…

Mac解决command not found:mvn 保姆级

1.背景 mac电脑已经安装了jdk1.8。如果不清楚自己jdk安装位置的可以到idea查看。但是命令行执行 mvn 会报 command not found 2.解决方案 默认安装的 jdk 是没有配置环境变量,因此需要手动配置 通常如果是默认安装则路径都会一样直接复制即可,只需更…

驱动开发之设备树语法

0.设备树由来 通过前面platform实验,使用platform总线,device与driver需要匹配才可以,device主要是存储一些硬件信息的,传递给driver使用。这样就会导致大量的硬件信息在linux内核源码里面,arch/arm/mach-xxx 和 arch…

undefined symbol: _ZN3c104impl8GPUTrace13gpu mmcv

这里写自定义目录标题 ImportError: //python3.8/site-packages/mmcv/_ext.cpython-38-x86_64-linux-gnu.so: undefined symbol: _ZN3c104impl8GPUTrace13gpuTraceStateEERROR conda.cli.main_run:execute(49): 这样的问题往往都是版本不匹配导致的 pytorch的版本,m…

【C++】类和对象1.0

本鼠浅浅介绍一些C类和对象的知识,希望能得到读者老爷们的垂阅! 目录 1.面向过程和面向对象 2.类的引入 3.类的定义 4.类的访问限定符及封装 4.1.类的访问限定符 4.2.封装 5.C中struct和class的区别 6.类域 7.类的实例化 8.类对象模型 8.1.类…

线性代数|机器学习-P5特征值和特征向量

文章目录 1. 特征值和特征向量1.1 特征向量1.2 向量分解 2. 矩阵相似2.1 特征值求解法-相似2.2 特殊特征值2.3 反对称矩阵 3.对称矩阵 1. 特征值和特征向量 1.1 特征向量 假设有一个n行n列的方阵A,有 n 个不相同的特征值为 λ \lambda λ,特征向量为 x 1 , x 2 , …

(2022,扩散模型,评分函数,数据流形的内在维度,SVD)使用扩散模型估计数据流形的维度

Your diffusion model secretly knows the dimension of the data manifold 公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群) 目录 0. 摘要 1. 引言 2. 相关工作 3. 背景:基于评…

【YOLOv5/v7改进系列】引入Slimneck-GSConv

一、导言 GSConv旨在平衡模型的准确度与速度,针对自动驾驶车辆中目标检测任务设计。从类脑研究中得到的直观理解是,具有更多神经元的模型能够获得更强的非线性表达能力。但是,不容忽视的是生物大脑处理信息的强大能力和低能耗远远超过计算机…

二、Nginx目录结构与基本运行原理

目录 一、目录结构 二、运行原理 一、目录结构 我们使用tree 命令查看nginx的目录。如果tree 命令失效,需要安装tree工具 [rootlocalhost local]# yum install -y tree[rootlocalhost /]# tree /usr/local/nginx /usr/local/nginx ├── client_body_temp # PO…

C语言 | Leetcode C语言题解之第129题求根节点到叶节点数字之和

题目: 题解: int sumNumbers(struct TreeNode* root) {if (root NULL) {return 0;}int sum 0;struct TreeNode* nodeQueue[2000];int numQueue[2000];int leftQueue 0, rightQueue 0;nodeQueue[rightQueue] root;numQueue[rightQueue] root->v…

Vue——初识组件

文章目录 前言页面的构成何为组件编写组件组件嵌套注册 效果展示 前言 在官方文档中,对组件的知识点做了一个很全面的说明。本篇博客主要写一个自己的案例讲解。 vue 官方文档 组件基础 页面的构成 说到组件之前,先大致说明下vue中页面的构成要素。 在…

手写数据集minist基于pytorch分类学习

1.Mnist数据集介绍 1.1 基本介绍 Mnist数据集可以算是学习深度学习最常用到的了。这个数据集包含70000张手写数字图片,分别是60000张训练图片和10000张测试图片,训练集由来自250个不同人手写的数字构成,一般来自高中生,一半来自工…

MTU相关随笔

一、MTU的概念 MTU(最大传输单元):用来通知对方所能接受数据服务单元的最大尺寸,说明发送方能够接受的有效载荷大小。MTU是包或帧的最大长度,一般以字节记,如果过大在碰到路由器时会被拒绝转发&#xff0c…

SpringBoot项目本地运行正常,jar包运行时前端报错403:No mapping for......

SpringBoot项目本地运行正常,jar包运行时前端报错403:No mapping for… 提示:在部署jar包到云服务器上之前,一定要在本地运行jar包,查看前端代码是否运行正常,若报错的话可以节省很多时间 方式:…

友顺科技(UTC)分立器件与集成IC产品选型和应用

友顺科技股份有限公司成立于1990年,是全球领先的集成电路与功率半导体厂商 ,集团总部位于台北,生产基地位于福州、厦门。 友顺科技具有完整模拟组件产品线,其中类比IC涵盖各种稳压器、PWM控制IC, 放大器、比较器、逻辑IC、Voltage Translato…

基于飞腾 D2000 8 核+ 32G DDR+板载 6 千兆电口+ 4 千兆光口高性能网络安全主板

第一章、产品介绍 1.1 产品概述 XM-D2000GW是一款基于飞腾 D2000 8 核X100 桥片高性能网络安全主板,D2000 为飞腾首款支持 8 核桌面平 台处理器,支持双通道 DDR4-2666 内存,芯片内置国密 SM2/SM3/SM4/SM9 加速引擎,支持单精度、双…

gitee和github的协同

假设gitee上zhaodezan有一个开发库,但是从andeyeluguo上拉取最新的(从github上同步过来最新的) git remote add dbgpt_in_gitee https://gitee.com/andeyeluguo/DB-GPT.git remote -v git pull --rebase dbgpt_in_gitee main 有冲突可能需要…