【STM32开发笔记】移植AI框架TensorFlow到STM32单片机【上篇】

【STM32开发笔记】移植AI框架TensorFlow【上篇】

    • 一、TFLM是什么?
    • 二、TFLM开源项目
      • 2.1 下载TFLM源代码
      • 2.2 TFLM基准测试说明
      • 2.3 TFLM基准测试命令
    • 三、TFLM初步体验
      • 3.1 PC上运行Keyword基准测试
      • 3.2 PC上运行Person detection基准测试
      • 3.3 No module named 'numpy'问题解决
    • 四、TFLM源码浅析
      • 4.1 编译生成的.o文件
      • 4.2 基准测试的构建目标
      • 4.3 基准测试的构建规则
      • 4.4 TFLM库的构建规则
    • 五、TFLM主体移植
      • 5.1 实现TFLM库的构建
      • 5.2 实现辅助函数microlite_test
      • 5.3 实现keyword基准测试的构建
      • 5.4 实现Person detection基准测试的构建
      • 5.5 实现基准测试依赖的功能——计时和日志
    • 六、参考链接

本系列将介绍如何将TensorFlow Lite for Microcontrollers一直到STM32H7S78-DK上。由于整个过程较为繁琐,本系列将分为上下两篇进行介绍。本文为系列内容的上篇,主要分为TFLM是什么、TFLM初步体验、TFLM源码浅析、TFLM主体移植几个部分。其中,TFLM初步体验部分将会介绍如何在PC上运行TFLM基准测试,TFLM源码浅析部分主要介绍TFLM源码是如何进行构建的,TFLM主体移植主要介绍如何在基于CMake的STM32项目中构建TFLM库和基准测试。

一、TFLM是什么?

你或许都听说过TensorFlow——由谷歌开发并开源的一个机器学习库,它支持模型训练和模型推理。

今天介绍的TFLM,全称是TensorFlow Lite for Microcontrollers,翻译过来就是“针对微控制器的TensorFlow Lite”。那TensorFlow Lite又是什么呢?

TensorFlow Lite(通常简称TFLite)其实是TensorFlow团队为了将模型部署到移动设备而开发的一套解决方案,可以简单理解为TensorFlow的手机版。下面是TensorFlow官网上关于TFLite的一段介绍:

TensorFlow Lite 是一组工具,可帮助开发者在移动设备、嵌入式设备和 loT 设备上运行模型,以便实现设备端机器学习。

而我们今天要介绍的TensorFlow Lite for Microcontrollers(TFLM)则是 TensorFlow Lite的微控制器版本。这里是官网上的一段介绍:

TensorFlow Lite for Microcontrollers (以下简称TFLM)是 TensorFlow Lite 的一个实验性移植版本,它适用于微控制器和其他一些仅有数千字节内存的设备。 它可以直接在“裸机”上运行,不需要操作系统支持、任何标准 C/C++ 库和动态内存分配。核心运行时(core runtime)在 Cortex M3 上运行时仅需 16KB,加上足以用来运行语音关键字检测模型的操作,也只需 22KB 的空间。

这三者一脉相承,都出自谷歌,区别是TensorFlow同时支持训练和推理,而后两者只支持推理。TFLite主要用于支持手机、平台等移动设备,TFLM则可以支持单片机。从发展历程上来说,后两者都可以说是TensorFlow项目的“支线项目”。或者说这三者是一个树形的发展过程,目前是三个并进发展的。

二、TFLM开源项目

TFLM代码仓链接:https://github.com/tensorflow/tflite-micro

2.1 下载TFLM源代码

下载TFLM需要使用如下git命令:

 git clone https://github.com/tensorflow/tflite-micro.git

TFLM顶层目录下的文件和目录,如下图所示:

image-20240915212410086

2.2 TFLM基准测试说明

TFLM顶层目录有README.md文件,其Additional Documentation节列出来Benchmark说明,Benchmark(基准测试)用于衡量关键模型和工作负载的性能。

README.md前一半内容为:

image-20240915212828124

完整内容参考: tflite-micro/tensorflow/lite/micro/benchmarks/README.md at main · tensorflow/tflite-micro (github.com)

2.3 TFLM基准测试命令

从README的”Run on x86”可以看到,在x86 PC上运行关键词基准测试的命令是:

make -f tensorflow/lite/micro/tools/make/Makefile run_keyword_benchmark

在x86 PC上运行人体检测基准测试的命令是:

make -f tensorflow/lite/micro/tools/make/Makefile run_person_detection_benchmark

以上两个命令都会调用make命令,并以tensorflow/lite/micro/tools/make/Makefile为构建规则,分别构建run_keyword_benchmarkrun_person_detection_benchmark两个目标。

查阅tensorflow/lite/micro/tools/make/Makefile文件夹内容,可以看到:

image-20240915213658373

这段代码中的 595行、601行、605行、612行、613行 分别会下载一些文件,具体下载的是tflm依赖的库和测试数据集;

而执行上面两个make命令,实际上会依次执行如下步骤:

  1. 下载依赖库和数据集;
  2. 编译测试程序;
  3. 运行测试程序;

必须至少一遍make命令,才会下载测试数据集,才能进行后续的移植步骤。

三、TFLM初步体验

由于TFLM开源项目依赖部分三方软件代码没有直接放在TFLM源码仓中,需要运行一次基准测试才会下载下拉进行编译。因此,我们需要先在PC上体验一下TFLM基准测试。

PC上运行TFLM推荐使用Ubuntu系统,其他操作系统运行可能会有些问题。

3.1 PC上运行Keyword基准测试

PC Linux系统上,运行如下命令,可以执行Keyword基准测试:

make -f tensorflow/lite/micro/tools/make/Makefile run_keyword_benchmark

命令执行完毕,最后输出如下:

image-20240915220542913

PC上运行10次耗时3毫秒。

3.2 PC上运行Person detection基准测试

make -f tensorflow/lite/micro/tools/make/Makefile run_person_detection_benchmark命令执行完毕,最后输出如下:

image-20240915220904048

image-20240915220841572

PC上运行10次,有人的耗时343毫秒,无人的耗时337毫秒。

3.3 No module named 'numpy’问题解决

make命令报错:

image-20240915214404249

解决方法:

pip install numpy

四、TFLM源码浅析

开始移植TFLM之前,需要清楚TFLM整个源码项目是如何构建的(也就是构建规则)。

4.1 编译生成的.o文件

PC上运行完基准测试命令过程中,会执行源码编译命令。运行完成后,使用如下命令,可以找到所有.o文件:

find . -name '*.o'

部分输出如下图所示:

image-20240918205828262

通过该命令的输出,我们可以知道刚刚的两个命令一共有多少源文件参与了编译。

4.2 基准测试的构建目标

要移植TFLM,仅仅知道有多少源文件参与编译还不够,我们需要知道具体的构建规则。本节将通过分析Makefile解读基准测试的具体构建目标(target)。

从前面的PC端运行Keyword基准测试的输出可以看到,可执行程序名称为keyword_benchmark,通过搜索源码,可以找到对应的Makefile构建规则代码为:

image-20240918213031151

这里调用了Makefile的宏函数microlite_test,并传递了4个参数,分别为:

  • 参数1:keyword_benchmark
  • 参数2:$(KEYWORD_BENCHMARK_SRCS)
  • 参数3:$(KEYWORD_BENCHMARK_HDRS)
  • 参数4:$(KEYWORD_BENCHMARK_GENERATOR_INPUTS)

4.3 基准测试的构建规则

下面以keyword_benchmark为例分析具体构建规则。

宏函数microlite_test的具体定义为:

image-20240918214047186

image-20240918215156216

前面我们执行了如下命令:

make -f tensorflow/lite/micro/tools/make/Makefile run_keyword_benchmark

这个命令指定的目标名称为run_keyword_benchmark,对应到helper_function.inc文件中的84行,参数1为keyword_benchmark,下方规则的TEST_SCRIPT变量的值定义在tensorflow/lite/micro/tools/make/Makefile文件中为空白字符串,因此不起作用;

84行还可以看到run_keyword_benchmark目标依赖$(keyword_benchmark_BINARY)目标,回看到52行,可以知道:

  • $(keyword_benchmark_BINARY)目标表示可执行程序文件路径,:

  • $(keyword_benchmark_BINARY)目标依赖$(keyword_benchmark_LOCAL_OBJS)目标;

  • $(keyword_benchmark_BINARY)目标依赖$(MICROLITE_LIB_PATH)目标;

  • $(keyword_benchmark_BINARY)目标的构建规则为:

    $$(CXX) $$(CXXFLAGS) $$(INCLUDES) \-o $$(keyword_benchmark_BINARY) $$(keyword_benchmark_LOCAL_OBJS) \$$(MICROLITE_LIB_PATH) $$(LDFLAGS) $$(MICROLITE_LIBS)
    

根据传参,可以知道,一些变量的值为:

  • keyword_benchmark_LOCAL_SRCS的初始值为: tensorflow/lite/micro/benchmarks/keyword_benchmark.cc

  • keyword_benchmark_LOCAL_HDRS的值为:tensorflow/lite/micro/benchmarks/micro_benchmark.h

  • 得到GEN_RESULTS的命令为: python3 tensorflow/lite/micro/tools/generate_cc_arrays.py gen/linux_x86_64_default_gcc/genfiles tensorflow/lite/micro/models/keyword_scrambled.tflite,该命令会将模型文件转为.h.cc文件,其中.h为声明,.cc为数据:

    #include <cstdint>constexpr unsigned int g_keyword_scrambled_model_data_size = 34576;
    extern const unsigned char g_keyword_scrambled_model_data[];
    

    命令的输出为:gen/linux_x86_64_default_gcc/genfiles/tensorflow/lite/micro/models/keyword_scrambled_model_data.cc

  • keyword_benchmark_LOCAL_SRCS值会变为包含刚刚生成的模型keyword_scrambled_model_data.cc

  • keyword_benchmark_LOCAL_OBJS的值是:先将keyword_benchmark_LOCAL_SRCS值中所有.cc替换为.o,再给每个值添加前缀gen/linux_x86_64_default_gccobj/core/

  • MICROLITE_LIB_PATH的值为库文件libtensorflow-microlite.a的完整路径: gen/linux_x86_64_default_gcc/lib/libtensorflow-microlite.a

好了,到这里就可以看到$(keyword_benchmark_BINARY)目标构建规则下方命令的主要参数了:

  • -o选项为gen/linux_x86_64_default_gcc/bin/keyword_benchmark

  • $(keyword_benchmark_LOCAL_OBJS)为所有目标文件(.o)列表;

  • $(MICROLITE_LIB_PATH)是链接的库文件(.a)路径;

  • $(LDFLAGS)是链接器命令行选项;

  • $(MICROLITE_LIBS)是额外库选项,实际为 -lm

    到这里,Keyword基准测试的构建规则以及分析清楚了。

4.4 TFLM库的构建规则

接下来,我们分析keyword链接的库文件libtensorflow-microlite.a(简称TFLM库)的链接规则。

该目标的定义为:

image-20240918223607739

这里可以看到,该库是由以下目标文件列表归档(使用ar命令)而来:

  • $(MICROLITE_LIB_OBJS)
  • $(MICROLITE_KERNEL_OBJS)
  • $(MICROLITE_THIRD_PARTY_OBJS)
  • $(MICROLITE_THIRD_PARTY_KERNEL_OBJS)
  • $(MICROLITE_CUSTOM_OP_OBJS)

其中,前四个变量的值来自:

image-20240918223939972

这里可以看到,前面的几个目标文件列表分别来自:

  • $(MICROLITE_LIB_OBJS)来自于$(MICROLITE_CC_SRCS)
  • $(MICROLITE_KERNEL_OBJS)来自于$(THIRD_PARTY_CC_SRCS)
  • $(MICROLITE_THIRD_PARTY_OBJS)来自于$(THIRD_PARTY_KERNEL_CC_SRCS)
  • $(MICROLITE_THIRD_PARTY_KERNEL_OBJS)来自于$(MICROLITE_CC_KERNEL_SRCS)
  • $(MICROLITE_CUSTOM_OP_OBJS)没有在Makefile中定义,默认为空,可以忽略(实际使用时,可以通过命令行参数指定);

经过在Makefile中加入日志打印,发现上述几个xxx_SRCS变量的值为:

image-20240919211922448

五、TFLM主体移植

从TFLM官方介绍文档、测试命令以及源码分析可以知道,在STM32H7S78-DK上移植TFLM可以分解为以下几个主要任务:

  • 实现TFLM库的构建
  • 实现CMake版的辅助函数microlite_test
  • 实现keyword基准测试的构建
  • 实现person detection基准测试(可选)的构建
  • 实现基准测试依赖的功能——计时和日志

接下来分别介绍,如何完成上述任务。

5.1 实现TFLM库的构建

有了以上分析之后,我们就可以进行今天最重要的工作,将Makefile转换为CMake构建规则文件(CMakeLists.txt)。

这部分是整个移植过程中工作量和难度最大的部分,涉及到很多CMake的语法细节,这里不详细介绍。

实现TFLM库构建的CMake代码为:

TFLM-libtflite-micro

5.2 实现辅助函数microlite_test

TFLM源码中,构建基准测试使用了GNU Make的microlite_test宏函数,实现了代码的复用和逻辑精简。和GNU Make类似的,CMake也支持函数。本节我们实现GNU Make的microlite_test宏函数的CMake移植版。

CMake具体代码如下:

TFLM-microlite_test

这部分做了几个特殊处理:

  • 目标类型从可执行程序修改为静态库,即生成文件类型由.elf文件改为.a文件;
  • 使用宏将main函数重命名为${NAME}_main

做出如上两处修改的原因是——由CubeMX生成的基础已经有main函数,并且可以生成elf文件。通过上述两个修改,我们可以将基准测试代码链接到CubeMX生成的代码中去,进而实现整个项目可以在STM32H7S78-DK上运行。

5.3 实现keyword基准测试的构建

有了CMake辅助函数microlite_test之后,实现keyword基准测试的构建就很简单了,直接看代码:

TFLM-keyword_benchmark

5.4 实现Person detection基准测试的构建

同样的,有了CMake辅助函数microlite_test之后,实现Person detection基准测试的构建也很简单,直接看代码:

TFLM-person_detection

5.5 实现基准测试依赖的功能——计时和日志

TFLM本身是一个边缘AI推理库,可以理解为一个举证向量计算库,纯CPU计算不依赖任何外设功能。但是,TFLM的基准测试则依赖计时和日志功能。在不同平台上,计时和日志功能的实现方式有所不同,对应的代码也不同(例如Linux、Windows、MacOS操作系统、STM32单片机、ESP32单片机上,实现计时和日志的代码是不是一样的)。

TFLM源码中,已经为移植进行了设计,其中两个文件名分别对应计时和日志:

  • debug_log.cc,用于实现计时功能,不同平台有不同版本;
  • micro_time.cc,用于实现计时功能,不同平台有不同版本;

默认的debug_log.cc实现为tensorflow/lite/micro/debug_log.cc,其主要代码内容为:

TFLM-debug_log_stderr

这里实现了——使用vfprintfstderr输出。借助过往经验,我们知道CubeMX生成的项目稍加修改就能够支持printf,这种方式应该也可以支持。

因此,对于STM32单片机这部分可以不用修改!

默认的micro_time.cc实现为tensorflow/lite/micro/micro_time.cc,其主要代码内容为:

TFLM-micro_time_ctime

这个文件里面提供了两种实现,通过TF_LITE_USE_CTIME宏进行切换:

  • 如果没定义TF_LITE_USE_CTIME宏,则为空实现,提供空壳函数,可以编译通过,无法正常计时;
  • 如果定义了TF_LITE_USE_CTIME宏,则为基于C标准库clock()CLOCKS_PER_SEC的计时;

对于STM32单片机,C标准库的clock()的计时不能直接使用。

因此,对于STM32单片机,需要单独实现一个micro_time.cc文件,具体代码为:

TFLM-micro_time_stm32_hal

到这里,TFLM移植的主体内容基本已经完成了,还有一些问题需要解决,我能将在下篇进行介绍,欢迎关注。

本篇内容到此为止,感谢阅读!

六、参考链接

  1. TensorFlow Lite for Microcontrollers介绍: TensorFlow Lite for Microcontrollers (google.cn)
  2. TensorFlow Lite for Microcontrollers入门: 微控制器入门 | TensorFlow (google.cn)
  3. tflite-micro 源码GitHub仓: https://github.com/tensorflow/tflite-micro
  4. CMake最新文档: CMake Reference Documentation — CMake 3.30.3 Documentation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/54612.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

保障电气安全的电气火灾监控系统主要组成有哪些?

电气火灾是什么&#xff1f; 电气火灾一般是指由于电气线路、用电设备、器具以及供配电设备出现故障性释放的热能&#xff1a;如高温、电弧、电火花以及非故障性释放的能量&#xff1b;如电热器具的炽热表面&#xff0c;在具备燃烧条件下引燃本体或其他可燃物而造成的火灾&…

递归基础训练-路径总和

路径总和 给你二叉树的根节点 root 和一个表示目标和的整数 targetSum 。判断该树中是否存在 根节点到叶子节点 的路径&#xff0c;这条路径上所有节点值相加等于目标和 targetSum 。如果存在&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 我们可以把之前的…

计算机组成原理(笔记4)

定点加减法运算 补码加法&#xff1a; 补码减法&#xff1a; 求补公式&#xff1a; 溢出的概念 在定点小数机器中,数的表示范围为|&#xff58;|<1。在运算过程中如出现大于1的现象,称为 “溢出”。 上溢&#xff1a;两个正数相加&#xff0c;结果大于机器所能表示的最…

数据结构-线性表的单链式存储结构图解及C语言实现

概念 链式存储&#xff1a;结点在存储器中的位置是任意的&#xff0c;即逻辑相邻的数据元素在物理上不一定相邻 链式存储结构也称非顺序映像或链式映像 图解 链式存储结构中结点一般有两个部分组成&#xff0c;即数据域(data)和指针域&#xff0c;数据域是用于存放数据的&…

开源ids snort (windows版)

Snort-IPS-on-Windows-main资源-CSDN文库 GitHub - eldoktor1/Snort-IPS-on-Windows: A comprehensive guide to installing and configuring Snort IPS on Windows, ensuring robust network security 手动打造Snortbarnyard2BASE可视化告警平台 - FreeBuf网络安全行业门户 …

JavaWeb--小白笔记07:servlet对表单数据的简单处理

这里的servlet对表单数据的处理是指使用IDEA创建web工程&#xff0c;再创建html和class文件进行连接&#xff0c;实现html创建一个表单网页&#xff0c;我们对网页中的表单进行填充&#xff0c;可以通过class文件得到网页我们填充的内容进行打印到控制台。 一登录系统页面---h…

Linux网络之UDP与TCP协议详解

文章目录 UDP协议UDP协议数据报报头 TCP协议确认应答缓冲区 超时重传三次握手其他问题 四次挥手滑动窗口流量控制拥塞控制 UDP协议 前面我们只是说了UDP协议的用法,但是并没有涉及到UDP协议的原理 毕竟知道冰箱的用法和知道冰箱的原理是两个层级的事情 我们首先知道计算机网…

怎么用gitee做一个图片仓库,在md文档中用这个图片网络地址,然后显示图片

痛因&#xff1a;我为什么要这样做&#xff0c;呃&#xff0c;我一开始图片都是存本地地址的&#xff0c;放在和这个md文档同级的assets文件夹下面&#xff0c;这样子确实当时很方便&#xff0c;复制粘贴什么也不用管&#xff0c;但是想把这个文档分享给别的人的时候&#xff0…

美信监控易的优势:长期稳定运行

美信监控易作为一款运维产品&#xff0c;其显著的优势在于能够长期稳定运行。在IT运维领域&#xff0c;系统的稳定性是至关重要的&#xff0c;它直接关系到企业的业务连续性和客户满意度。美信监控易通过其自研的数据库和先进的监测技术&#xff0c;确保了系统的高可用性&#…

HarmonyOS鸿蒙开发实战(5.0)悬浮窗拖拽和吸附动画实践

鸿蒙HarmonyOS NEXT开发实战往期文章必看&#xff08;持续更新......&#xff09; HarmonyOS NEXT应用开发性能实践总结 HarmonyOS NEXT应用开发案例实践总结合集 最新版&#xff01;“非常详细的” 鸿蒙HarmonyOS Next应用开发学习路线&#xff01;&#xff08;从零基础入门…

OpenHarmony(鸿蒙南向开发)——小型系统内核(LiteOS-A)【Perf调测】

往期知识点记录&#xff1a; 鸿蒙&#xff08;HarmonyOS&#xff09;应用层开发&#xff08;北向&#xff09;知识点汇总 鸿蒙&#xff08;OpenHarmony&#xff09;南向开发保姆级知识点汇总~ 持续更新中…… 基本概念 Perf为性能分析工具&#xff0c;依赖PMU&#xff08;Per…

Qt --- 常用控件的介绍 --- 其他控件

一、QPushButton QWidget中设计到的各种属性/函数/使用方法&#xff0c;针对接下来要介绍的Qt的各种控件都是有效的。 使用QPushButton表示一个按钮&#xff0c;这也是当前我们最熟悉的一个控件了。这个类继承了QAbstractButton&#xff0c;这个类是一个抽象类&#xff0c;是…

C++自动驾驶面试核心问题整理

应用开发 概述&#xff1a;比较基础&#xff0c;没啥壁垒&#xff0c;主要有linux开发经验即可 问题&#xff1a;基础八股&#xff0c;如计算机网络、操作系统、c11等基础三件套&#xff1b;中等难度算法题1-2道。 中间件开发&#xff08;性能优化&#xff09; 概述&am…

Set 和 Map 的模拟实现

1、引言 在数据结构与算法的学习与实践中&#xff0c;关联容器&#xff08;associative containers&#xff09;是不可忽视的重要工具。作为高效管理数据的一类容器&#xff0c;C 标准库中的 set 和 map 在现代软件开发中扮演着关键角色。这两个容器通过平衡二叉搜索树&#x…

【通讯协议】S32K142芯片——LIN通信的学习和配置

文章目录 前言1.LIN是什么&#xff1f;2. LIN连接结构及节点构成3. 帧的组成3.1 帧头3.1.1 同步间隔场&#xff08;Break&#xff09;3.1.2 同步场&#xff08;Synch&#xff09;3.1.3 标识符场&#xff08;PID&#xff09; 3.2 帧响应3.2.1 数据场3.2.2 校验和场 3. 代码配置总…

【图灵完备 Turing Complete】游戏经验攻略分享 Part.6 处理器架构2 函数

新的架构来了&#xff0c;本游戏的最后一个攻略分享&#xff0c;最后汇编部分无非是对于操作码的熟练&#xff0c;硬件没有问题&#xff0c;那么也就无关痛痒了。 汇编实现&#xff0c;两数相或和两数相与非一起相与即可。 八位异或器&#xff0c;整就完事了。 有手就行。 利…

干货满满:嵌入式电阻的重要作用全知晓

在嵌入式开发中&#xff0c;有一个小小的元件&#xff0c;它看似不起眼&#xff0c;却在电路中扮演着极其重要的角色。它就是——电阻。很多初学者认为电阻只是用来“分压降流”&#xff0c;但其实&#xff0c;电阻的作用远比我们想象的要复杂和关键。今天&#xff0c;我们就来…

LeetCode 2374.边积分最高的节点:模拟

【LetMeFly】2374.边积分最高的节点&#xff1a;模拟 力扣题目链接&#xff1a;https://leetcode.cn/problems/node-with-highest-edge-score/ 给你一个有向图&#xff0c;图中有 n 个节点&#xff0c;节点编号从 0 到 n - 1 &#xff0c;其中每个节点都 恰有一条 出边。 图…

思科安全网络解决方案

《网安面试指南》http://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247484339&idx1&sn356300f169de74e7a778b04bfbbbd0ab&chksmc0e47aeff793f3f9a5f7abcfa57695e8944e52bca2de2c7a3eb1aecb3c1e6b9cb6abe509d51f&scene21#wechat_redirect 《Java代码审…

【门牌制作 / A】

题目 代码 #include <bits/stdc.h> using namespace std; int main() {int cnt 0;for (int i 1; i < 2020; i){string s;s to_string(i);cnt count(s.begin(), s.end(), 2);}cout << cnt; }