五一期间,在家里翻到之前上学时候用的电脑和工作日志,粗略浏览一番,感慨10年岁月蹉跎,仍然没有找到自己技术方向的“道”。遂有感而发,写下此文。
算起来,接触软件开发也有10年时间了,最开始是本科大二的时候,14年,在课堂上学习了c语言,开始对编程有了点兴趣。课外参加嵌入式的比赛,在stm32和飞思卡尔的芯片上做开发,刚开始是循迹和控制的算法。
后来也在PC上写一些配套的上位机工具,使用的是MFC和matlab,matlab是可以做界面的,估计很多人不知道。上位机主要功能是串口读写,SD卡读写(嵌入式做图像处理,当时还没有实时无线发送视频流的发放,先写到SD卡),曲线展示等功能。
第一个MFC工程
第一个matlab工程
大四期间,由于在做平衡车方面有点心得,在北京中国科学技术馆和自动化所做自平衡车,也是嵌入式相关的项目。当时中国科学技术馆还有我们一个展位,记得在4楼,通宵好几天在馆里面调试。现在应该换成别的展品了。
中国科学技术馆展台
本科的毕业设计是四旋翼的控制,在simulink中计算旋翼控制量,用于控制算法的仿真与开发,UI使用matlab构建。
四旋翼控制
不知道什么时候接触的qt,大概是有年国庆假期,学了两三天,发现比MFC好用多了,后面的开发就一直用qt了。
在硕士期间,开始系统的接触视觉算法,学了一些课程,做了几个视觉识别相关的项目,印象最深的是,端子识别QTCTD,线序的识别CSDPlus,板材的识别,视觉抓取VisionGrasp,satellite线缆弯折比例测量等。开发环境也各种各样,PC端的,Ubuntu的,最离谱的安卓的,手机相机拍照来测satellite线缆折弯比,现在来看,这根本是不可能测准的。还有一些非视觉的项目,有些是不用交付的,用于辅助实验室是设备的调试,比如调姿平台RAA,倍福PLC控制,麦克纳姆车控制,传送带控制,KUKA机器人控制。
线序识别
标题线序识别最终产品
从结构到电器,到软件,全是本人设计机械图纸,PCB:
端子插线识别,
采用模板匹配方法,找到端子线孔,yolo二分类识别好坏。在UBUNTU下的。
机械臂抓取坐标系调试
硕士论文中开发的软件,家具厂智能制造单元控制系统,也是使用的Qt,基本上是把上学期间做项目用的软件技术全部用上了。包括车间内设备的控制与调度,板材计数,瑕疵检测,MES系统的通信。
板材生产线检测系统
硕士期间选了一个课程,学的是java,现在看主要是面向就业的。那时候不懂,只觉得好玩就选了,课程作业是写一个信息系统,我大概做了这个一个,老师布置作业,学生完成作业,老师打分,学生查看自己成绩。
JAVA信息管理系统
不得不说,java开发的这种框架还是比较多,稍微学习就可以上手。但工作以后会发现,熟悉业务,了解用户需求,才能又好用的软件。
其它的都是业余时间开发,主要和无人机,嵌入式开发有关。比如使用qt开发了无人机编队上位机 QT_ANO_POSITION, QFormation等。
无人机飞行控制上位机
嵌入式开发主要是实习公司做的,主要项目有压力检测设备,NRF干扰器,人体关节测量仪器,脉诊仪。NRF干扰器开起来,整个房间的无线鼠标都不能用了,用于一些科技比赛的防远程作弊,广场舞扰民制裁等。脉诊仪最有意思,使用三个传感器模拟三个手指,放到人手腕上采集信号,和中医诊断匹配,训练深度模型,我们叫它电子号脉。不知道现在有没有类似的产品,那时候还是1819年,思想还是比较超前的。
2020年学校毕业,进入视觉检测行业,在工作中,第一次见识到了具有工业强度的视觉软件。和之前在学校里面做的视觉检测项目完全是天上地下,也因此,在工作的前两年,我有空就研究这个工业强度的视觉软件和底层,尤其是在我独立负责一个新产品开发,拥有了全部代码权限之后。这段时间我软件算法技术成长最快的,对检测业务需求也有了一定的了解。
工作前两年主要在学习,如何构建一个高效的视觉检测系统。自己的专业技能,则都点在了视觉算法的设计,开发和优化上面,包括原理优化,指令集,多线程。优化算子都对标号称最强的视觉检测算法halcon,TUM德国慕尼黑工大开发。有些单算子的效率,甚至高过了halcon,而算子组合优化,halcon是无法完成的,在定制算法开发时,两步三步并一步,少了内存反复读写,效率是高过halcon的。虽然在CPU上优化了很多,但最后我们发现,CPU的性能已经快被我们榨干了,因此后来把整个检测系统的算法从CPU迁移到GPU上,使用的是cuda。
我一直喜欢称自己为算法工程师,但我又看不上只会写算法,对软件,业务一无所知的所谓算法工程师,因此我也经常开发一些软件,来印证自己所学。主要也是受行业内前辈的影响,产生了自己开发视觉检测系统底层的想法,有了底层,开发一些小的软件时候,就可以统一到一个框架中来,慢慢的就有了积累。
在开发一个自己的视觉检测系统底层的前期,做了很多调研,OpenCV,Dlib,VLFeat,Boofcv,Pillow,VTK,ITK,Halide,SIMD,Halcon,Separe,IPP,NPP,Duilib,Qt,wxWidgets等。Dlib是参考较多的库。
在21年的时候,就给这个底层库起好了名字,叫MetaFramework,包含了一些基础的几何库,数学库,图像,区域,轮廓等算法数据接口,也包括序列化,通信等软件组件,基础的数据结构,就用stl里面的。虽然很多大型的开源库,都喜欢自己写基础数据结构,比如UE,QT,GST等,自己用stl就够了,这个还是不要投入太多精力。UI框架没有自己写,之前研究了一段时间的UI框架,对于非软件科班出身的人来说还是有点吃力,使用的是Duilib,使用vs的解决方案管理项目。使用这个底层库,没有做什么实质上的应用,就写了些简单测试的demo,因为自己实际使用起来还是觉得不顺手。
随着对视觉检测系统的了解,对效率,开发友好,跨平台的需求,MetaFramework不能再满足需求了,于是推倒重来,重新设计了新的架构,Meta(元)。
元,使用c++搭建的大规模智能体仿真后端框架,支持底层的动力学(Dynamics)计算,控制器(Autopilot)作为插件配置;上层的高级指令(Commands),智能体行为逻辑(Rules)配置;框架允许模块间数据交换采用序列化容器的方式,因此,环境数据的加载模块,传感器模型,以及未来新的需求所需的模块可以通过脚本的方式,配置到仿真循环中
后来逐步进入boost,框架改名为MetaCore,UI使用的wxwidgets。使用boost库实现了一些底层功能,比如序列化,共享内存总线,模块插件加载等。使用cmake进行项目管理,可以在多个平台使用一套源码编译。逐步成为一个可用的底层库,做了一些项目和小工具。
使用这个底层库,开发了ImageViewer,Sim框架等软件。
ImageViewer
sim框架
在用这个框架做项目的时候,发现UI这块还是比较难用,于是又集成了Qt,但仅用于UI。
又开发了QViewer视觉跟踪控制软件。
视觉识别与跟踪
写到这里,其实已经隐约有点了悟。软件需求千差万别,业务场景复杂多变,虽然做了这么多软件,但我真正积累下来的只有软件算法设计的思想,也唯有底层技术万变不离其宗。已经从一开始的感慨逐渐平静,这就是未来的方向。要构建自己的核心能力,而核心能力就是底层库源码。
这也是现在正在做的事,想明白了这点,又开始思考,构建c++底层库的好处。总结了如下三点:自己平时写的一些模块,可以放到一个仓库里面,统一编译,统一管理,能在自己些demo的时候,有一个快速的参考;有些三方库源码很不好找或者不容易下载,预编译的也不适合自己的编译环境,统一到在自己的代码仓库中Thirdparty的中则没有这个问题;作为发布工业软件的核心库,在软件逐步迭代的过程中,底层库的能力也在不断增长。