python解析帆软cpt及frm文件(xml)获取源数据表及下游依赖表

#!/user/bin/evn python
import os,re,openpyxl
'''输入:帆软脚本文件路径输出:帆软文件检查结果Excel
'''
#获取来源表
def table_scan(sql_str):# remove the /* */ commentsq = re.sub(r"/\*[^*]*\*+(?:[^*/][^*]*\*+)*/", "", sql_str)# remove whole line -- and # commentslines = [line for line in q.splitlines() if not re.match("^\s*(--|#)", line)]# remove trailing -- and # commentsq = " ".join([re.split("--|#", line)[0] for line in lines])# split on blanks, parens and semicolonstokens = re.split(r"[\s)(;]+", q)# scan the tokens. if we see a FROM or JOIN, we set the get_next# flag, and grab the next one (unless it's SELECT).result = []get_next = Falsefor token in tokens:if get_next:if token.lower() not in ["", "select"]:#过滤掉因条件设置选择来源表而产生的脏数据非表名字符if '"+if' not in token and '"'not in token and '$if' not in token and '${if' not in token:result.append(token.replace('`',''))get_next = Falseget_next = token.lower() in ["from", "join"]#特殊单独情况处理:from后面来源表条件选择对应来源表,比如from ${if(XX,"来源表A","来源表B")}# print(result)if not result:tab_pat=re.compile(r'from.*?if\((.*?)\)',re.S)for i in re.findall(tab_pat,sql_str):temp_r=i.replace('"','').split(',')if '' not in temp_r and '/*' not in temp_r:result.append(temp_r[1].replace('`','').strip())result.append(temp_r[2].replace('`','').strip())return result#文件扫描,使用正则解析第一版,准确性不太高!
def file_scan(path):f_content=open(path,'r',encoding='utf-8').read()#1、数据集查询sqlgpat=re.compile('<TableDataMap>(.*?)</TableDataMap>',re.S)if_has_sqlg=re.findall(sqlgpat,f_content)rs_sql_list=[]if if_has_sqlg:#获取数据集名称以及数据集查询语句sqlspat=re.compile('<TableData name="(.*?)".*?<DatabaseName>\n<!\[CDATA\[(.*?)]]></DatabaseName>.*?<Query>\n<!\[CDATA\[(.*?)]]></Query>.*?</TableData>',re.S)rs1=re.findall(sqlspat,if_has_sqlg[0])for rsv in rs1:from_tables=[]if '"*/"' in rsv[1]:sql=rsv[1].split('*/')for ss in sql:from_tables.extend(table_scan(ss))else:from_tables.extend(table_scan(rsv[2]))rs_sql_list.append([rsv[0],rsv[1],rsv[2],set(from_tables)])# print(rsv[1])#2、js获取if_has_jsgpat=re.compile('<NameJavaScript name="(.*?)</NameJavaScript>',re.S)if_has_jsg=re.findall(if_has_jsgpat, f_content)rep_list = []  # 报表列表,去重if if_has_jsg:for jscon in if_has_jsg:# conturlpat=re.compile('<Content>.*?var\surl\s=.*?viewlet=(.*?.[cptfrm]{3})&.*?</Content>',re.S)conturlpat = re.compile('<Content>.*?viewlet=(.*?[cptfrm]{3})[&?].*?</Content>', re.S)if '<JavaScript class="com.fr.js.ReportletHyperlink">' in jscon:# rlpat=re.compile('<ReportletName extendParameters="true" showPI="true">\s<!\[CDATA\[(.*?)]]></ReportletName>',re.S)rlpat = re.compile( '<ReportletName .*?\[CDATA\[(.*?)]]></ReportletName>', re.S)rl=re.findall(rlpat,jscon)[0]# print(re.findall(rlpat,jscon))if rl not in rep_list:rep_list.append(rl)elif '<JavaScript class="com.fr.js.WebHyperlink">' in jscon:wlpat=re.compile('<URL>\s<!\[CDATA\[(.*?)]]></URL>',re.S)wl=re.findall(wlpat,jscon)[0]if wl not in rep_list:rep_list.append(wl)elif re.search(conturlpat,jscon):frl=re.findall(conturlpat,jscon)[0]print(frl)if not frl.startswith('/'):frl='/'+frlif frl not in rep_list:rep_list.append(frl)# elif '<JavaScript class="com.fr.js.JavaScriptImpl">'in jscon and('.cpt' in jscon or '.frm' in jscon) :#     print(jscon)if_has_cljpat=re.compile(r'<RHIframeSource.*?<Attr path="(.*?[cptfrm]{3}).*?</RHIframeSource>',re.S)f_has_clj=re.findall(if_has_cljpat,f_content)if f_has_clj:for v in f_has_clj:if v not in rep_list:rep_list.append(v)# print(rep_list)return rep_list,rs_sql_list#使用xml解析精准获取
def xml_scan(path):import xml.etree.ElementTree as ETtree = ET.parse(path)  # 打开xml文件dataset_iters = []  # 数据集名称,数据集数据库链接名,数据集查询语句,数据集来源sql表if list(tree.getroot().iter("TableDataMap")):# 数据集TableDataMap父节点table_map_content = list(tree.getroot().iter("TableDataMap"))[0]# 获取数据集查询名称dataset_iters_map = table_map_content.iter('TableData')for val in dataset_iters_map:# print('查询名称--',val.attrib.get("name"))dataset_name = val.attrib.get("name").strip()if len(list(val.iter("DatabaseName"))):# 帆软目前一个数据集查询框只能链接单个数据库,所以获取数据库链接名只有1个# print('查询数据库链接名--', list(val.iter("DatabaseName"))[0].text.strip())dataset_connect_name = list(val.iter("DatabaseName"))[0].text.strip()else:# print('查询数据库链接名--',None)dataset_connect_name = Noneif len(list(val.iter("Query"))):# 帆软目前一个数据集查询框只能链接单个数据库,所以获取数据库链接名只有1个,且只有一个sql查询窗口内容# print('查询数据查询语句--', list(val.iter("Query"))[0].text.strip())dataset_query = list(val.iter("Query"))[0].text.strip()from_tables = []if '"*/"' in dataset_query:sql = dataset_query.split('*/')for ss in sql:# print(ss)from_tables.extend(table_scan(ss))else:from_tables.extend(table_scan(dataset_query))else:# print('查询数据查询语句--', None)dataset_query = Nonefrom_tables=[]dataset_iters.append([dataset_name, dataset_connect_name, dataset_query,from_tables])urls = set()  # 报表全体下游调用URL集合js_contents = []  # js内容,内容清洗出来的URL,用于核对数据清洗是否准确# print(len(list(tree.iter("ReportletName"))))#js链接报表-网格报表-本地服务器local_url = [v.text.strip() for v in tree.iter("ReportletName")]if local_url:urls.update(local_url)# print(len(list(tree.iter("URL"))))  # js链接报表-网格报表-远程web链接web_url = [v.text.strip() for v in tree.iter("URL")]if web_url:urls.update(web_url)# print(len(list(val.iter("RHIframeSource"))))# js链接报表-tab框架挂载报表for v in tree.iter("RHIframeSource"):webframe_url = list(v.iter("Attr"))[0].attrib.get("path")# 去除URL尾巴参数if webframe_url and not webframe_url.endswith("frm") and not webframe_url.endswith("cpt"):rpat = re.compile(r'.*?[cptfrm]{3}', re.I)webframe_url = re.findall(rpat, webframe_url)[0]urls.update([webframe_url])elif webframe_url:urls.update([webframe_url])# print(len(list(val.iter("Content"))))for cv in list(tree.iter("Content")):contents = cv.texttemp_url = []# print(contents)http_ul_pat = re.compile(r'"(http.*?)"') #js内容里面挂载web超链接local_ul_pat = re.compile(r'viewlet=(.*?[cptfrm]{3})')#js内容里面挂载服务器本地绝对路径报表链接# print(re.findall(http_ul_pat,contents))# print(re.findall(local_ul_pat, contents))if re.findall(http_ul_pat, contents):urls.update(re.findall(http_ul_pat, contents))temp_url.extend(re.findall(http_ul_pat, contents))if re.findall(local_ul_pat, contents):# print(re.findall(local_ul_pat, contents))#处理挂载服务器本地链接路径,有些挂载绝对目录不规范a/b/c.cpt处理后输出/a/b/c.cptfor vl in re.findall(local_ul_pat, contents):if vl.startswith('/'):urls.update([vl])temp_url.append(vl)else:urls.update(['/'+vl])temp_url.append('/'+vl)js_contents.append([contents, temp_url])# print(js_contents)return dataset_iters,urls,js_contentsdef write_excel(list_tar,file_path):wb = openpyxl.Workbook()  # 新建工作簿sheet0=wb[wb.sheetnames[0]]sheet0.title=('引用报表列表')sheet1 = wb.create_sheet('来源mysql表')sheet2 = wb.create_sheet('帆软数据集查询及依赖明细')sheet3 = wb.create_sheet('帆软JS内容明细')sheet0['A1'] = '文件名'sheet0['B1'] = '依赖报表'sheet1['A1'] = '文件名'sheet1['B1'] = '依赖mysql表'sheet2['A1'] = '文件名'sheet2['B1'] = '数据集查询名称'sheet2['C1'] = '数据库链接名称'sheet2['D1'] = '数据集查询语句'sheet2['E1'] = '数据来源mysql表'sheet3['A1'] = '文件名'sheet3['B1'] = 'JS内容'sheet3['C1'] = 'JS解析URL'r=1k=1d=1x=1for index,item in enumerate(list_tar):print(('开始处理第 '+str(index+1)+' 个文件结果,共 '+str(len(list_tar))+' 个').center(50,'-'))# filename,dataset_iters, urls, js_contents# dataset_iters = []  # 数据集名称,数据集数据库链接名,数据集查询语句,数据集来源sql表target_file_name=item[0]cpt=item[2]sql=item[1]jsc=item[3]for id1,value in enumerate(sorted(cpt)):r=r+1sheet0.cell(row=r, column=1, value=target_file_name)sheet0.cell(row=r, column=2, value=value)sql_set=set()for id1,val in enumerate(sql):k = k + 1sql_set.update(val[3])sheet2.cell(row=k, column=1, value=target_file_name)sheet2.cell(row=k, column=2, value=val[0])sheet2.cell(row=k, column=3, value=val[1])sheet2.cell(row=k, column=4, value=val[2])sheet2.cell(row=k, column=5, value='\n'.join(val[3]))for id1,value in enumerate(sorted(sql_set)):d = d + 1sheet1.cell(row=d, column=1, value=target_file_name)sheet1.cell(row=d, column=2, value=value)for id1, value in enumerate(sorted(jsc)):if value[0] or value[1]:x = x +1sheet3.cell(row=x, column=1, value=target_file_name)sheet3.cell(row=x, column=2, value=value[0])sheet3.cell(row=x, column=3, value='\n'.join(value[1]))wb.save(file_path)wb.close() # excel使用完成需要关闭,否则会报错def main_scan(fr_path,result_path):rs_list=[]file_list=[]file_name=[]for dirpath, dirnames, filenames in os.walk(fr_path):for file in filenames:file_list.append(os.path.join(dirpath,file))file_name.append(os.path.join(dirpath,file).replace(r'【清空前缀:本地机扫描文件夹绝对路径】','').replace('\\','/'))for index,file in enumerate(file_list):print(('正在扫描第 '+str(index+1)+' 个文件,共 '+str(len(file_list))+' 个文件').center(50,'-'))try:dataset_iters,urls,js_contents = xml_scan(file)rs_list.append([file_name[index],dataset_iters,urls,js_contents])except:print('【文件扫描失败】:',file)print('文件扫描完毕,正在写入Excel'.ljust(50,'-'))write_excel(rs_list, result_path)if __name__ == '__main__':#帆软扫描文件夹绝对路径fr_path=r'【本地机扫描文件夹绝对路径】'#帆软扫描结果文件绝对路径result_path=r'【本地机结果路径】\scaning_result.xlsx'main_scan(fr_path, result_path)

扫描文件夹:

运行结果

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/25158.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c++学习(特殊类设计)[30]

只能在堆上创建对象的类 如果你想要确保对象只能在堆上创建&#xff0c;可以通过将析构函数声明为私有&#xff0c;并提供一个静态成员函数来创建对象。这样&#xff0c;类的实例化只能通过调用静态成员函数来完成&#xff0c;而无法直接在栈上创建对象。 以下是一个示例&…

【开源项目--稻草】Day03

【开源项目--稻草】Day03 1. 续Spring-Security1.1 自定义登录界面 2. 用户注册2.1 将注册页面显示2.2 编写控制器进行测试2.3 编写注册业务逻辑2.4 注册功能的收尾 3. VUE3.1 VUE的基本使用3.1.1 什么是VUE 3.2 使用VUEAjax完善稻草问答的注册功能 1. 续Spring-Security 1.1 …

Kubespray-offline v2.21.0-1 下载 Kubespray v2.22.1 离线部署 kubernetes v1.25.6

文章目录 1. 目标2. 预备条件3. vcenter 创建虚拟机4. 系统初始化4.1 配置网卡4.2 配置主机名4.3 内核参数 5. 打快照6. 安装 git7. 配置科学8. 安装 docker9. 下载介质9.1 下载安装 docker 介质9.2 下载 kubespray-offline-ansible 介质9.3 下载 kubernetes 介质 10. 搬运介质…

6.物联网操作系统信号量

一。信号量的概念与应用 信号量定义 FreeRTOS信号量介绍 FreeRTOS信号量工作原理 1.信号量的定义 多任务环境下使用&#xff0c;用来协调多个任务正确合理使用临界资源。 2.FreeRTOS信号量介绍 Semaphore包括Binary&#xff0c;Count&#xff0c;Mutex&#xff1b; Mutex包…

【2种方法,jmeter用一个正则提取器提取多个值!】

jmeter中&#xff0c;用json提取器&#xff0c;一次提取多个值&#xff0c;这个很多人都会。但是&#xff0c;用正则提取器一次提取多个&#xff0c;是否可以呢&#xff1f; 肯定&#xff0c;很多人都自信满满的说&#xff0c;可以&#xff01;形如&#xff1a;token":&q…

Jenkins触发器时间、次数设定

触发器触发条件介绍 触发器触发条件公式&#xff1a;由5颗星组成 * * * * * 分别代表&#xff1a;分钟(0-59) 小时(0-23) 日期(1-31) 月份(1-12) 星期(0-6) 企业项目中常用场景介绍 场景1&#xff1a;接口脚本部分测试通过&#xff0c;部分还在进行&#xff0c;回归测试脚本执行…

Windows上安装 jdk 环境并配置环境变量 (超详细教程)

&#x1f468;‍&#x1f393;博主简介 &#x1f3c5;云计算领域优质创作者   &#x1f3c5;华为云开发者社区专家博主   &#x1f3c5;阿里云开发者社区专家博主 &#x1f48a;交流社区&#xff1a;运维交流社区 欢迎大家的加入&#xff01; &#x1f40b; 希望大家多多支…

torchvision.datasets数据加载失败

torchvision.datasets数据加载失败 如何使用torchvision.datasets进行自动下载数据失败&#xff0c;可以使用手动下载数据 Ctrl点击可以进入相关包文件&#xff0c;查找下载地址&#xff1a;https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz 手动下载之后解压&#x…

企业微信小程序在调用wx.qy.login时返回错误信息qy.login:fail

原因是大概是绑定了多个企业但是在开发者工具中没有选择正确的企业 解决方法&#xff1a; 重新选择企业后即可成功获取code

RabbitMQ(一) - 基本结构、SpringBoot整合RabbitMQ、工作队列、发布订阅、直接、主题交换机模式

RabbitMQ结构 Publisher &#xff1a; 生产者 Queue: 存储消息的容器队列&#xff1b; Consumer:消费者 Connection&#xff1a;消费者与消息服务的TCP连接 Channel:信道&#xff0c;是TCP里面的虚拟连接。例如&#xff1a;电缆相当于TCP&#xff0c;信道是一条独立光纤束&…

web开发中的安全和防御入门——csp (content-security-policy内容安全策略)

偶然碰到iframe跨域加载被拒绝的问题&#xff0c;原因是父页面默认不允许加载跨域的子页面&#xff0c;也就是的content-security-policy中没有设置允许跨域加载。 简单地说&#xff0c;content-security-policy能限制页面允许和不允许加载的所有资源&#xff0c;常见的包括&a…

原型链污染

文章目录 1. javascript 原型链2. 原型链变量的搜索3. prototype 原型链污染4. 原型链污染例题4.1 题1&#xff1a;4.2.题2&#xff1a; 1. javascript 原型链 js在ECS6之前没有类的概念&#xff0c;之前的类都是用funtion来声明的。如下 可以看到b在实例化为test对象以后&…

【C语言进阶】指针的高级应用(下)

文章目录 一、指针数组与数组指针1.1 指针数组与数组指针的表达式 二、函数指针2.1 函数指针的书写方式 三、二重指针与一重指针3.1 二重指针的本质3.2 二重指针的用法3.3 二重指针与数组指针 总结 一、指针数组与数组指针 (1)指针数组的实质是一个数组&#xff0c;这个数组中存…

Linux进程(二)

文章目录 进程&#xff08;二&#xff09;Linux的进程状态R &#xff08;running&#xff09;运行态S &#xff08;sleeping&#xff09;阻塞状态D &#xff08;disk sleep&#xff09;深度睡眠T&#xff08;stopped&#xff09;状态X&#xff08;dead&#xff09;状态Z&#x…

SSM(Vue3+ElementPlus+Axios+SSM前后端分离)--搭建Vue 前端工程[一]

文章目录 SSM--搭建Vue 前端工程--项目基础界面实现功能01-搭建Vue 前端工程需求分析/图解代码实现搭建Vue 前端工程下载node.js LTS 并安装: node.js 的npm创建Vue 项目使用idea 打开ssm_vue 项目, 并配置项目启动 Vue3 项目目录结构梳理Vue3 项目结构介绍 配置Vue 服务端口El…

Dockerfile构建mysql

使用dockerfile构建mysql详细教学加案例 Dockerfile 文件 # 使用官方5.6版本&#xff0c;latest为默认版本 FROM mysql:5.6 #复制my.cof至容器内 ADD my.cnf /etc/mysql/my.cof #设置环境变量 密码 ENV MYSQL_ROOT_PASSWORD123456my.cof 文件 [mysqld] character-set-server…

IDEA SpringBoot Maven profiles 配置

IDEA SpringBoot Maven profiles 配置 IDEA版本&#xff1a; IntelliJ IDEA 2022.2.3 注意&#xff1a;切换环境之后务必点击一下刷新&#xff0c;推荐点击耗时更短。 application.yaml spring:profiles:active: env多环境文件名&#xff1a; application-dev.yaml、 applicat…

【MATLAB第63期】基于MATLAB的改进敏感性分析方法IPCC,拥挤距离与皮尔逊系数法结合实现回归与分类预测

【MATLAB第63期】基于MATLAB的改进敏感性分析方法IPCC&#xff0c;拥挤距离与皮尔逊系数法结合实现回归与分类预测 思路 考虑拥挤距离指标与PCC皮尔逊相关系数法相结合&#xff0c;对回归或分类数据进行降维&#xff0c;通过SVM支持向量机交叉验证得到平均指标&#xff0c;来…

基于CentOS 7构建LVS-DR集群

DIPVIPRIPClient192.169.41.139 LVS 192.168.41.134192.169.41.10RS1192.168.41.135RS2192.168.41.138 要求&#xff1a; node4为客户端&#xff0c;node2为LVS&#xff0c;node3和node4为RS。 1.配置DNS解析&#xff08;我这里使用本地解析&#xff09; 192.168.41.134 www.y…

一、8.分页

当物理内存不够时就把不常用的内存暂时存入磁盘&#xff0c;并且描述符的P位置0&#xff0c;把要使用的段放入内存&#xff0c;描述符P位置1 但是这种方式会产生大量内存碎片&#xff0c;影响内存分配效率 设想一个虚拟内存&#xff0c;每隔任务都有他独立的虚拟内存&#xf…