第十届Nvidia Sky Hackathon参赛作品
1. 项目说明
变电站是用于变电的设施,主要的作用是将电压转化,使电能在输电线路中能够长距离传输。在电力系统中,变电站起到了极为重要的作用,它可以完成电能的负荷分配、电压的稳定、容错保护等重要功能,是电力系统的重要组成部分。
变电运维操作站是根据无人值班变电站的运行维护 倒闸操作、事故处理、 设备巡视和文明生产管理的需要,在地理位置、供电区域和交通方面适宜对无人值班变电站进行高效、合理的管理而设立的变电运行班组。智慧变电站运维项目基于RAG技术创新构建智能对话机器人,通过 NVIDIA NIM的强大功能,将大模型技术赋能变电运维操作,充分结合远程无人化高清视频和机器人联合巡检等技术,打造变电站智慧运维新范式 。
2. 功能模块
团队将功能分解为3个功能模块和1个辅助模块,其中变电运维知识库,固定巡检点位校验,场景变化判别是3个功能模块。缺陷识别检测辅助判断为辅助模块。整体界面如下图所示:
2.1 变电运维知识库
基于RAG技术搭建变电运维知识库,按照运行维护、事故处理、设备巡视和文明生产管理四部分组织处理文档,全方位监测和解决变电运维领域中可能出现的问题及其成因。采用ai-embed-qa-4对模型进行向量化,使用ai-nemotron-4-340b-instruct"大模型对对话进行生成。
变电运维知识库示例:
2.2固定巡检点位校验
当前,变电站巡检机器人所采用的方式为固定点与预置位相结合的巡检方式,具体而言,是借助自主导航系统抵达指定的巡检点位置,读取云台预置位的相关参数,设定云台的固定角度,进而完成图像信息的采集工作。然而,整个流程处于开环状态,难以控制,并且缺少对采集信息的反馈以及纠正机制。倘若在采集过程中,出现导航位置的偏差、摄像头的赃污、所采集设备位置的偏移,以及相机曝光参数设置不当等情况,均会致使巡检失效。
为此,团队运用 ai-phi-3-vision-128k-instruct大模型对采集的图像进行文本信息描述,实时判别采集设备是否正常采集信息。通过诸如图像是否模糊、曝光是否正常、所拍摄表计是否处于视野中心等一系列 image-to-text 问题,获取有效的信息,达成系统自动对固定巡检点位准确度的校验,主动察觉问题,并及时予以干预。
固定点为校验示例:
2.3场景变化判别
针对监控远程无人化高清视频,因为其相对固定特性,故设计场景变化判别模块,采用对不同时刻相同同角度拍摄的两张或多张图片进行对比,当出现不同表明场景发生变化,进行事故警报。当前传统模型采用以changenet为主导的场景变化语义检测模型,模型需要依靠大量的人工采集标注,泛化能力差。
本项目采用image-to-text大模型方法进行场景变化判别,具体的,通过ai-microsoft-kosmos-2对输入的两张图片进行文本描述,然后根据文本描述信息比较文本的异同,通过文本异同程度判断场景是否发生变化。
2.4 大模型+小模型融合的缺陷检测新范式
变电站的缺陷检测工作极其复杂,在检测过程中,需要面对诸多技术难题和复杂的设备运行状况。当前检测模型主要以yolov8与cascade-rcnn系列模型为主。通常情况下,检测工作会特别注重召回率,然而这却导致了误检率偏高的问题。比如说,在对某些细微的潜在缺陷进行检测时(渗漏油缺陷),为了尽可能多地发现可能存在的缺陷,检测系统会放宽判定标准,从而将一些并非真正缺陷的情况(水渍,阴影)也纳入检测结果之中,使得误检情况屡屡发生。这不仅增加了后续的排查工作量,还可能会对正常的运维工作造成一定的干扰和误导。
因此,为了改善这一状况,我们打算引入大模型语义特性,充分利用大模型的强大逻辑特性,来完成对缺陷检测结果的过滤。通过对检测数据进行深入的语义分析和逻辑推理,大模型能够更加准确地判断哪些是真正的缺陷,哪些是误检。具体流程,输入一张图片,ai-phi-3-vision-128k-instruc大语言模型进行文本生成,本地yolov8小模型进行缺陷检测,将两个结果结合输入ai-nemotron-4-340b-instruct语言大模型进行最后的结果输出。
2.5 可视化文本切分
RAG(Retrieval-Augmented Generation,检索增强生成)体系中,可视化文本切分策略占据着至关重要的地位,其重要性主要体现在以下几个方面:
首先,从效率层面来看,将文本进行合理的分割成较小的部分,能够显著降低模型所需处理的文本规模,进而大幅提升处理效率。例如,对于篇幅较长的文本,若不进行切分,模型在处理过程中可能会耗费大量的时间和计算资源。
其次,在语义理解方面,恰当的切分策略能够有效地保留文本的语义完整性和连贯性,从而助力模型更精准、深入地理解文本的内在含义。以复杂的科技文献为例,若切分不当,可能导致关键语义的丢失或曲解。
再者,就检索效果而言,这一策略有助于更精确地检索到与特定问题高度相关的文本片段,显著增强检索的精准度和有效性。例如,在大规模的文本数据库中,准确的切分能提高检索的命中率。
最后,在优化生成结果方面,能够为模型提供更具针对性和有效性的上下文信息,进而从根本上优化生成的结果质量。比如,在进行文本生成任务时,合适的切分所提供的精准上下文能引导模型生成更准确、合理的内容。
项目采用可视化文本切分策略,选取合适的text splitter方法,调优chunk size与overlap的设置,使其更适合变电领域的文本数据切分。工具链接:https://chunvisualization.streamlit.app/,感谢作者:果粒奶优有果粒(哔哩哔哩)
3.结语
感谢NVIDIA官方和活动组织者,谢谢!