学习笔记:在华为昇腾NPU上进行深度学习项目【未完待续】

在NPU上做深度学习算法

  • 场景和功能说明
  • 系统信息查询
    • 1、场景一:非NPU上训练的模型推理
      • 1.1 执行方案
        • 学习案例
      • 1.2 CPU/GPU训练的模型转.ONNX模型
      • 1.3 onnx转om
      • 1.4 om推理

昇腾社区链接: 昇腾社区-官网丨昇腾万里 让智能无所不及

场景和功能说明

  • 第一种:在cpu或gpu上训练的模型,但要在NPU上执行模型推理;
  • 第二种:在NPU上同步训练、推理。

系统信息查询

中括号里的为查询结果示例。
– 查看系统架构:uname -a [aarch64,也称arm64]
– 查看操作系统版本:lsb_release -a [Ubuntu 22.04.3 LTS]
– 查看npu芯片型号:npu-smi info [Ascend310B4]
– 查看npu id:npu-smi info -l
– 查看Atlas产品型号:npu-smi info -t product -i <npu id> [Atlas 200I A2]

1、场景一:非NPU上训练的模型推理

此种使用场景下,cpu或gpu上训练的模型无法直接在nup上执行推理,需要先把训练好的模型转换成.om离线模型,才可以在NPU上执行后续的推理。

1.1 执行方案

step1:在已安装CANN开发环境的机器上,把cpu或gpu上训练的模型转换成.onnx格式 或 pd格式
step2:在安装CANN运行环境的机器上,把onnx格式转om格式。
对应CANN开发环境运行环境的区别、安装方法见官方文档:CANN软件安装

学习案例

① 官方gitee项目-支持tensorflow、pytorch的模型转换 这里已经集成了多种开源模型从初始模型 —> onnx模型 —> om模型转换操作步骤对应代码

  • 第一阶段:模型转onnx需要写代码完成;
  • 第二阶段:.onnx转.om使用atc命令完成,无须写代码。

② 仅onnx模型 —> om模型的转换案例:昇腾社区简单ATC转换案例
③ om模型的推理应用案例 这里的快速链接是昇腾社区下pytorch的应用案例,昇腾社区也集成了其他训练框架的应用案例,可自行查看。
④ 其他网友的分享:[推理部署]🌔ONNX推理加速技术文档-杂记

1.2 CPU/GPU训练的模型转.ONNX模型

以下是基于 bert_base_chinese预训练模型转onnx 改写的转换代码:

  • 源文件:基于bert_base_chinese模型微调后的.pt模型文件
  • 目标:把.pt转换成.onnx
import torch
import onnx
import numpy as np
import onnxruntime
from init.init_config import ModelConfig'''
1、pth文件转onnx:pytorch框架中集成了onnx模块,属于官方支持,onnx也覆盖了pytorch框架中的大部分算子。因此将pth模型文件转换为onnx文件非常简单。参考:https://zhuanlan.zhihu.com/p/524023964?utm_id=0
2、.pth转.onnx可以在任意机器上执行,只要有python并安装了对应依赖包即可,既可以是普通windows x86_64 gpu/cpu,也可以是linux Ascend310B4(昇腾 310B4 npu卡)
3、本文件中:
① 使用的是“基于bert-base-chinese微调的模型”,微调时的输入样本只有一个序列,所以训练时把token_type_ids也省略了;
② 和原始bert-base-chinese预训练模型input_shape=(batch_size,max_len)不同,微调训练使用的input_shape=(src_len,batch_size), attention_mask_shape=(batch_size,src_len), src_len是固定的512。
注意:Atlas 200/500 A2推理产品不支持动态Shape输入(设置Shape范围)。 详见官方文档 https://www.hiascend.com/document/detail/zh/canncommercial/70RC1/inferapplicationdev/aclpythondevg/aclpythondevg_0060.html
'''model_path = 'E:\\opencode\\13-02-BertWithPretrained-main\\cache1\\ner_model_epoch1_steps1000.pt'  # 微调后的模型文件
onnx_path = "./ner_model_bert.onnx"  # 定义onnx模型保存地址。固定max_len=512
# 注意token_id的shape=(src_len, batch_size)
input_shape = (512, 1)# todo 这里和原始模型在CPU或GPU上的加载方式保持一样。这里代码省略。。。。
model_config = ModelConfig()def load_torch_model():invoice_model = model_config.model# 在导出模型之前必须调用 model.eval() 或 model.train(False),因为这会将模型设置为“推理模式”。 这是必需的,因为 dropout 或 batchnorm 等运算符在推理和训练模式下的行为有所不同。invoice_model.eval()return invoice_modeldef onnx_model_predict(onnx_path, dummy_input):# 创建会话,用于推理'''这里 onnxruntime.InferenceSession(model_path) 就是加载模型的步骤,ONNX Runtime 会在内部执行模型的验证。如果模型有问题,ONNX Runtime 将在加载过程中引发异常。因此,在使用 ONNX Runtime 进行推理时,你通常不需要显式地调用 onnx.load(onnx_path) 和 onnx.checker.check_model(onnx_model)。 # 模型加载onnx_model = onnx.load(onnx_path)onnx.checker.check_model(onnx_model)'''ort_session = onnxruntime.InferenceSession(onnx_path)# 获取模型的输入"input"inputs = ort_session.get_inputs()# bert基础模型设置:定义模型的输入{"input":numpys数组-不是tensor}和输出 ["output"]padding_mask = np.transpose((dummy_input == 0))# 省略token_type_ids的写法,和源模型转onnx时的input保持一致!ort_inputs = {inputs[0].name: dummy_input,inputs[1].name: padding_mask}outputs = ort_session.get_outputs()output_name = [outputs[0].name]# 模型推理ort_outs = ort_session.run(output_name, ort_inputs)return ort_outsdef export_config(token_ids, padding_mask, keep=True):'''使用的是bert-base-chinese模型,常规输入包含input_ids、attention_mask、token_type_ids:param token_ids: 句子输入编码:param padding_mask: 掩码:param keep: 是否保留token_type_ids:return:'''output_names = ["out"]if keep:input_data = (token_ids,padding_mask,token_ids)input_names = ["input_ids", "attention_mask", "token_type_ids"]dynamic_axes = {"input_ids": {0: "B"},"attention_mask": {0: "B"},"token_type_ids": {0: "B"},"out": {0: "B"}}else:input_data = (token_ids,padding_mask)input_names = ["input_ids", "attention_mask"]dynamic_axes = {"input_ids": {0: "B"},"attention_mask": {0: "B"},"out": {0: "B"}}return input_data, input_names, output_names, dynamic_axesdef torch2onnx(dummy_input):torch_model = load_torch_model(model_path)token_ids = torch.from_numpy(dummy_input)  # numpy.ndarray转torch.tensor# bert基础模型设置padding_mask = (token_ids == 0).transpose(0, 1)# build data# 因为这里使用的是“基于bert-base-chinese微调的模型”,微调时的输入样本只有一个序列,所以token_type_ids可省略input_data, input_names, output_names, dynamic_axes = export_config(token_ids, padding_mask, keep=False)# onnx模型导出:verbose--是否打印日志torch.onnx.export(torch_model, input_data, onnx_path,verbose=True,opset_version=11,dynamic_axes=dynamic_axes,input_names=input_names,output_names=output_names)# 测试模型是否合理# 模型加载onnx_model = onnx.load(onnx_path)# 检查onnx模型转换是否合理onnx.checker.check_model(onnx_model)def onnx_predict(dummy_input, onnx_path):# 1、原始torch模型加载和推理origin_model = load_torch_model(model_path)input_sample_tensor = dummy_inputif isinstance(dummy_input, np.ndarray):input_sample_tensor = torch.from_numpy(dummy_input).to(device)torch_out = origin_model(input_sample_tensor).detach().numpy()# 2、onnx模型加载和推理ort_outs = onnx_model_predict(onnx_path, dummy_input)# 3、结果对比# todo 使用numpy的测试工具,检查两个数组是否在给定的相对和绝对误差范围内相等。np.testing.assert_allclose是一个测试断言语句,如果检查失败(即输出不在指定误差范围内),将引发 AssertionError,从而提示测试失败。#  (1)检查形状:确保 torch_out 和 ort_outs[0] 的形状相同。 (2)检查数值相等性: 对每个对应的元素,检查其数值是否在相对误差 (rtol) 和绝对误差 (atol) 允许的范围内。np.testing.assert_allclose(torch_out, ort_outs[0], rtol=1e-01, atol=1e-5)print(torch_out[:10])print(ort_outs[0][:10])print("convert success")if __name__ == "__main__":# #(方案1)随机型:在测试转换前后的误差时,需要传递同一输入值# input_sample = np.random.randn(*input_shape).astype(np.float32)# # (方案2)固定值型device = torch.device("cuda" if torch.cuda.is_available() else "cpu")dummy_input = np.ones(input_shape).astype(np.long)# 普通模型转onnxtorch2onnx(dummy_input)# 简单测试转换前后的精度差异onnx_predict(dummy_input, onnx_path)

1.3 onnx转om

具体指令参考 昇腾社区简单ATC转换案例

1.4 om推理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/626335.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

༺༽༾ཊ—设计-七个原则-模式—ཏ༿༼༻

第一原则&#xff1a;单一职责 一个类只负责一个功能领域中的相应职责&#xff1b; 接下来我们举一个代码例子&#xff0c;主要的功能实现是&#xff1a; 在主函数中运行调用描边工具和填充工具画矩形与圆形 首先写一个圆形类&#xff0c;里面只有一个方法用来返回string类型…

openssl3.2 - 官方demo学习 - mac - cmac-aes256.c

文章目录 openssl3.2 - 官方demo学习 - mac - cmac-aes256.c概述笔记END openssl3.2 - 官方demo学习 - mac - cmac-aes256.c 概述 指定加密算法(e.g. AES-256-CBC), 对明文生成MAC数据 笔记 /*! \file cmac-aes256.c \note openssl3.2 - 官方demo学习 - mac - cmac-aes256.…

SAP中采购文档价格条件可以删除吗?

首先要声名&#xff0c;基于采购价格条件的严谨性和历史追朔需求&#xff0c;删除属于危险操作。不建议普通用户去执行操作。如果有兴趣&#xff0c;在测试系统中自行测试一下即可。正式系统中&#xff0c;还请慎重处理。 笔者公司日常不会去删除采购价格&#xff0c;日常处理…

Word2Vec的CBOW模型

Word2Vec中的CBOW&#xff08;Continuous Bag of Words&#xff09;模型是一种用于学习词向量的神经网络模型。CBOW的核心思想是根据上下文中的周围单词来预测目标单词。 例如&#xff0c;对于句子“The cat climbed up the tree”&#xff0c;如果窗口大小为5&#xff0c;那么…

字符串与数组的异同

Java 中的字符串&#xff08;String&#xff09;和数组&#xff08;Array&#xff09;是两种不同类型的数据结构&#xff0c;它们有一些相似之处&#xff0c;同时也有一些显著的区别。 相同之处&#xff1a; 存储多个元素&#xff1a; 字符串和数组都用于存储多个元素。 使用…

微信小程序(四)页面跳转

注释很详细&#xff0c;直接上代码 新增内容 1.相对路径页面跳转 2. 绝对路径页面跳转 index.wxml <!-- navigator是块级元素&#xff0c;占一整行 --> <!-- 页面跳转url&#xff0c;相对路径 --> <navigator url"../logs/logs"><button type&…

赋值运算符和关系运算符

赋值运算符和关系运算符 赋值运算符 分类 符号作用说明赋值int a 10&#xff0c; 将10赋值给变量a加后赋值a b&#xff0c;将a b的值赋值给a-减后赋值a - b&#xff0c;将a - b的值赋值给a*乘后赋值a * b&#xff0c;将a b的值赋值给a/除后赋值a / b&#xff0c;将a b的…

运维知识点-Sqlite

Sqlite 引入 依赖 引入 依赖 <dependency><groupId>org.xerial</groupId><artifactId>sqlite-jdbc</artifactId><version>3.36.0.3</version></dependency>import javafx.scene.control.Alert; import java.sql.*;public clas…

第二证券:抢占技术前沿 中国光伏企业结伴“走出去”

2024年新年前后&#xff0c;光伏职业分外忙碌。据证券时报记者不完全统计&#xff0c;晶澳科技、华晟新动力、高测股份、华民股份等多家企业宣告新建项目投产&#xff0c;安徽皇氏绿能等企业的项目也迎来设备安装的重要节点。 证券时报记者采访多家企业的负责人后了解到&#…

AUTOSAR OS详细介绍及配置说明(更新版20240115)

前言 AUTOSAR OS扩展了OSEK/VDX标准中的操作系统,所以本文结合OSEK/VDX的标准来介绍AUTOSAR OS,并借助Vector Configurator讲解AUTOSAR OS的配置。 OSEK源于德语,英文意思是:“车载电子设备的开发系统和接口”,它是一个标准,用来产生嵌入式操作系统的规范,通讯协议栈,…

宝塔面板打不开,记录一下解决办法

由于在服务器宝塔内安装Apache&#xff0c;提示需要卸载nginx&#xff0c;卸载过后宝塔通过网址访问不了&#xff0c;特此记录一下问题。 1、检查宝塔端口会不会被占用 面板默许使用8888端口&#xff0c;使用命令查看8888端口会不会被占用&#xff1a; netstat -apn|grep 88…

tessreact训练字库

tessreact主要用于字符识别&#xff0c;除了使用软件自带的中英文识别库&#xff0c;还可以使用Tesseract OCR训练属于自己的字库。 一、软件环境搭建 使用Tesseract OCR训练自己的字库&#xff0c;需要安装Tesseract OCR和jTessBoxEditor(配套训练工具)。jTessBoxEditor需要…

接口以及多态

什么是接口 接口是一种抽象的数据类型&#xff0c;它定义了一组方法的规范&#xff0c;但没有具体的实现。接口可以被类实现&#xff0c;一个类实现了接口后&#xff0c;必须实现接口中定义的所有方法。接口可以被多个类实现&#xff0c;用以实现多重继承。 接口的定义使用关键…

基于SSM的社区老年人关怀服务系统

末尾获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;SSM 前端&#xff1a;采用JSP技术开发 数据库&#xff1a;MySQL5.7和Navicat管理工具结合 服务器&#xff1a;Tomcat8.5 开发软件&#xff1a;IDEA / Eclipse 是否Maven项目&#x…

【Vue自定义指令详细介绍】

Vue自定义指令详细介绍 1. 自定义指令1.1 局部1.2 全局 1. 自定义指令 在 Vue.js 中&#xff0c;除了默认提供的核心指令&#xff08;如 v-model、v-show、v-if 等&#xff09;&#xff0c;Vue.js 也允许注册自定义指令&#xff0c;自定义指令给你提供了一种方法来扩展 Vue 的…

【23种设计模式应用场景汇总】

23种设计模式应用场景汇总 设计模式是一种在软件开发中解决特定问题的通用解决方案。下面我将尝试将23种设计模式融入到一个场景中&#xff1a; 假设我们正在开发一个在线购物系统&#xff0c;我们可以使用以下设计模式&#xff1a; 1. 工厂方法模式&#xff1a;当用户在网站上…

力扣hot100 只出现一次的数字 位运算

Problem: 136. 只出现一次的数字 文章目录 思路复杂度Code 思路 复杂度 时间复杂度: O ( n ) O(n) O(n) 空间复杂度: O ( n ) O(n) O(n) Code class Solution {public int singleNumber(int[] nums) {int res 0;for(int x : nums)res ^ x;return res;} }

UI自动化测试框架

文章目录 UI自动化基础什么是UI自动化测试框架UI自动化测试框架的模式数据驱动测试框架关键字驱动测试框架行为驱动测试框架 UI自动化测试框架的作用UI自动化测试框架的核心思想UI自动化测试框架的步骤UI自动化测试框架的构成UtilsLog.javaReadProperties.Java coreBaseTest.ja…

【分布式技术】监控技术zabbix实操

目录 一、脚本监控nginx的连接状态 步骤一&#xff1a;做好nginx的配置 步骤二&#xff1a;完成监控数据脚本编写&#xff0c;并使用zabbix_get测试 步骤三&#xff1a;在zabbix agent配置目录中&#xff0c;编写以conf结尾的用户参数文件 步骤四&#xff1a;在zabbix web…

Python 网络编程之TCP详细讲解

【一】传输层 【1】概念 传输层是OSI五层模型中的第四层&#xff0c;负责在网络中的两个端系统之间提供数据传输服务主要协议包括**TCP&#xff08;传输控制协议&#xff09;和UDP&#xff08;用户数据报协议&#xff09;** 【2】功能 **端到端通信&#xff1a;**传输层负责…