python的sql解析库-sqlparse

内容目录

      • 一、基本方法:
        • 1.parse(sql)
        • 2.format(sql)
        • 3.split()
        • 4.parsestream()
      • 二、Token
      • 三、其他类型
      • 四、案例: 提取所有查询的字段和表名

sqlparse 是一个 Python 库,是一个用于 Python 的非验证 SQL 解析器, 用于解析 SQL 语句并提供一个简单的 API 来访问解析后的 SQL 结构。可以帮助解析复杂的 SQL 查询,提取信息,或者对 SQL 语句进行一些基本的分析和操作。

一、基本方法:

sqlparse的__init__方法中提供了四个基础方法

1.parse(sql)

用于将一个或多个 SQL 语句的字符串解析成 Python 对象,这些对象构成了一个抽象语法树(AST)
源码

def parse(sql, encoding=None):"""Parse sql and return a list of statements.:param sql: A string containing one or more SQL statements.:param encoding: The encoding of the statement (optional).:returns: A tuple of :class:`~sqlparse.sql.Statement` instances."""return tuple(parsestream(sql, encoding))

按照符号分割sql后返回一个元组, 可以递归获取所有的值

import sqlparseSQL = """CREATE TABLE foo (id integer primary key comment 'id_comm',title varchar(200) not null comment 'id_comm',description text comment 'id_comm');"""parsed = sqlparse.parse(SQL)[0]print(parsed)
2.format(sql)

格式化代码, 返回格式化后的代码字符串
源码:

def format(sql, encoding=None, **options):"""Format *sql* according to *options*.Available options are documented in :ref:`formatting`.In addition to the formatting options this function accepts thekeyword "encoding" which determines the encoding of the statement.:returns: The formatted SQL statement as string."""

参数说明:

  • sql: 需要格式化的 SQL 语句字符串。
  • reindent=True: 自动重新缩进 SQL 语句,使代码块对齐。
  • keyword_case=‘upper’: 将 SQL 关键字转换为大写。可选值有’lower’、‘upper’ 或 ‘capitalize’。
  • 其他可选参数还包括 indent_width(用于设置缩进的空格数,默认为 2)、wrap_after(设置换行的字符数限制)等,以进一步定制输出样式。
import sqlparsesql = """select * from tbl where id > 10;"""format = sqlparse.format(sql, reindent=True, keyword_case='upper')print(format)# SELECT *
# FROM tbl
# WHERE id > 10;
3.split()

按照符号分割sql语句, 返回一个sql列表
源码:

def split(sql, encoding=None):"""Split *sql* into single statements.:param sql: A string containing one or more SQL statements.:param encoding: The encoding of the statement (optional).:returns: A list of strings."""
import sqlparsesql = """select * from tbl where id > 10;select * from tbl where id > 20;"""split = sqlparse.split(sql)print(split)
# ['select * from tbl where id > 10;', 'select * from tbl where id > 20;']
4.parsestream()

类似parse方法, 流式解析sql, 它的设计初衷是为了处理从流式输入(如文件、网络连接或任何可迭代的对象)读取的 SQL 代码,而不是一次性加载整个 SQL 字符串到内存中。这样,在处理大型 SQL 文件或连续的数据流时,可以更有效地管理内存。
源码:

def parsestream(stream, encoding=None):"""Parses sql statements from file-like object.:param stream: A file-like object.:param encoding: The encoding of the stream contents (optional).:returns: A generator of :class:`~sqlparse.sql.Statement` instances."""
with open('../static/pre_sql.sql', 'r', encoding='utf-8') as file:for statement in sqlparse.parse(file):print(statement)

二、Token

源码:

class Token:"""Base class for all other classes in this module.It represents a single token and has two instance attributes:``value`` is the unchanged value of the token and ``ttype`` isthe type of the token."""def __init__(self, ttype, value):value = str(value)self.value = valueself.ttype = ttypeself.parent = Noneself.is_group = Falseself.is_keyword = ttype in T.Keywordself.is_whitespace = self.ttype in T.Whitespaceself.normalized = value.upper() if self.is_keyword else value

sqlparse.sql.Token: 这是最基本的Token类,表示SQL语句中的一个原子部分,如一个单词或者符号。它包含以下属性:

  • value: 该Token的实际文本内容,比如一个关键字像SELECT或一个标识符如表名。
  • token_type: 表示Token类型的枚举值,比如Keyword、Identifier、Punctuation等。
  • position 或 start_pos: 表示Token在原始SQL文本中的起始位置信息,有助于追踪Token的来源。
    相关Token子类和概念
  • sqlparse.sql.Identifier: 专门表示SQL中的标识符,如表名、列名等。这类Token可能会有额外的属性来表示是否为 quoted identifier(被引号包围的标识符)。
  • sqlparse.sql.Keyword: 表示SQL关键字,如SELECT, FROM, WHERE等。
  • sqlparse.sql.Punctuation: 表示SQL中的标点符号,如逗号,、分号;等。
  • sqlparse.sql.Comment: 用于表示SQL中的注释内容,可以是行内注释(-- …)或块注释(/* … */)。
  • sqlparse.sql.Comparison: 包含比较操作符(如=, !=, IN, BETWEEN等)以及它们两边的操作数,用于构建更复杂的表达式分析。
  • sqlparse.sql.Statement: 表示整个SQL语句,通常是由多个Token和其他Statement对象组成的树状结构,便于递归遍历整个SQL语句的结构。
    这里就需要引入sql解析的过程

sql -> 语法分析器(Lexer) -> Token流 -> 语法分析器(Parse) -> 抽象语法树(AST) -> 树结构(Tree Parse)

每个解析结果都会附带一个tokens 的属性,它是一个生成器,用于迭代解析后的Token序列, 包含了一些类型信息, 其中的类型信息有:

# Special token types
Text = Token.Text
Whitespace = Text.Whitespace
Newline = Whitespace.Newline
Error = Token.Error
# Text that doesn't belong to this lexer (e.g. HTML in PHP)
Other = Token.Other# Common token types for source code
Keyword = Token.Keyword
Name = Token.Name
Literal = Token.Literal
String = Literal.String
Number = Literal.Number
Punctuation = Token.Punctuation
Operator = Token.Operator
Comparison = Operator.Comparison
Wildcard = Token.Wildcard
Comment = Token.Comment
Assignment = Token.Assignment# Generic types for non-source code
Generic = Token.Generic
Command = Generic.Command# String and some others are not direct children of Token.
# alias them:
Token.Token = Token
Token.String = String
Token.Number = Number# SQL specific tokens
DML = Keyword.DML
DDL = Keyword.DDL
CTE = Keyword.CTE
Text: 基础文本类型,通常用于表示SQL语句中的普通文本部分。Whitespace: 空白字符,包括空格、制表符等,用于分隔SQL语句的不同部分。Newline: 特指换行符,用于标识新的一行开始。Error: 表示解析过程中遇到的无法识别或错误的文本。Other: 表示不属于当前解析器(如SQL解析器)预期的文本,例如在嵌入式SQL中可能遇到的其他语言(如HTML在PHP中的情况)。
Keyword: SQL关键字,如 SELECT, FROM, WHERE 等。DML: 数据操作语言(Data Manipulation Language)关键字,如 INSERT, UPDATE, DELETE, SELECT。DDL: 数据定义语言(Data Definition Language)关键字,如 CREATE, ALTER, DROP。CTE: 公共表达式(Common Table Expression)关键字,如 WITH。
Name: 数据库对象名称,如表名、列名等。
Literal: 字面量值,直接写在SQL中的数据值。String: 字符串字面量,如 'example string'。Number: 数字字面量,如 42, 3.14。
Punctuation: 标点符号,如逗号、括号等,用于分隔或包围SQL的各个部分。
Operator: 操作符,如 +, -, *, /, = 等。Comparison: 比较操作符,如 =, !=, <, > 等。
Wildcard: 通配符,如 % 在某些SQL上下文中的使用。
Comment: 注释,SQL中的单行或多行注释。
Assignment: 赋值操作符,如 := 在某些SQL方言中用于赋值。
Generic: 通用类型,适用于非特定源代码的分隔。Command: 命令,可能特指一些SQL命令或交互式shell命令。
Whitespace:空白字符(如空格、制表符、换行符等)
Keyword:SQL 关键字(如 SELECT、FROM、WHERE 等)
Name:标识符(如表名、列名等)
String.Single:单引号字符串字面量
String.Double:双引号字符串字面量(在某些 SQL 方言中用于标识符)
String.Backtick:反引号字符串字面量(如 MySQL 中的表名和列名)
Identifier: 表示SQL中的标识符,包括但不限于表名、列名、数据库名等。
Compound: 复合Token,可能包含多个子Token,用于更复杂的结构,如 Case 语句、 When 条件等。
Number.Integer:整数
Number.Float:浮点数
Number.Hex:十六进制数
Operator:操作符(如 =、<>、+、- 等)
Punctuation:标点符号(如逗号、分号、括号等)
Comment.Single:单行注释
Comment.Multiline:多行注释
Wildcard:通配符(如 *)
Function:函数名(如 COUNT()、MAX() 等)
DML、DDL、DCL 等:表示数据操作语言、数据定义语言、数据控制语言等的高级分类

三、其他类型

有些属于token的属性
但有些不属于token, 比如Where、IdentifierList、Identifier、Parenthesis、Comment等

sql = 'select 1 as id, name, case when name = "" then 3 else 4 end as score from tbl where id > 10 limit 100'stmts = sqlparse.parse(sql)[0].tokensfor stmt in stmts:print(f"{type(stmt)}::{stmt.ttype}::",stmt)
# <class 'sqlparse.sql.Token'>::Token.Keyword.DML:: select
# <class 'sqlparse.sql.Token'>::Token.Text.Whitespace::  
# <class 'sqlparse.sql.IdentifierList'>::None:: 1 as id, name, case when name = "" then 3 else 4 end as score
# <class 'sqlparse.sql.Token'>::Token.Text.Whitespace::  
# <class 'sqlparse.sql.Token'>::Token.Keyword:: from
# <class 'sqlparse.sql.Token'>::Token.Text.Whitespace::  
# <class 'sqlparse.sql.Identifier'>::None:: tbl
# <class 'sqlparse.sql.Token'>::Token.Text.Whitespace::  
# <class 'sqlparse.sql.Where'>::None:: where id > 10 
# <class 'sqlparse.sql.Token'>::Token.Keyword:: limit
# <class 'sqlparse.sql.Token'>::Token.Text.Whitespace::  
# <class 'sqlparse.sql.Token'>::Token.Literal.Number.Integer:: 100

当查询有多列或者有多表时, 会将其封装为IdentifierList, 单表时候会被封装为Identifier, 过滤条件被封装为Where, 括号会被封装为Parenthesis, 注释会被封装为Comment

四、案例: 提取所有查询的字段和表名

import sqlparse
import resql = 'insert into table inser_tbl partition (dt = dt) select 1 as id, name, case when (name = "" or name = "") then 3 else 4 end as score from tbl where id > 10 limit 100'stmts = sqlparse.parse(sql)[0].tokenscols = []
tbls = []
froms = []
wheres = []
last_key = ''
for stmt in stmts:if stmt.value == 'insert' or stmt.value == 'select' or stmt.value == 'from':last_key = stmt.value# 剔除空格和换行if stmt.ttype is sqlparse.tokens.Text.Whitespace:continue# 关键字elif stmt.ttype is sqlparse.tokens.Keyword.DML:dml = stmt.valuelast_key = dml# 字段elif isinstance(stmt, sqlparse.sql.IdentifierList):# 判断上一个是什么类型if last_key == 'select':for identifier in stmt.get_identifiers():col_name = identifier.valueif re.search('as', col_name, re.I):col_name = re.search('as (.*)', col_name, re.I).group(1).strip()cols.append(col_name)elif last_key == 'from':for identifier in stmt.get_identifiers():froms.append(identifier.value)else:for identifier in stmt.get_identifiers():tbls.append(identifier.value)elif isinstance(stmt, sqlparse.sql.Identifier):if last_key == 'select':cols.append(stmt.value)elif last_key == 'from':froms.append(stmt.value)else:tbls.append(stmt.value)elif isinstance(stmt, sqlparse.sql.Where):wheres.append(stmt.value)# 表名
print("cols:", cols)
print("tbls:", tbls)
print("froms:", froms)
print("wheres:", wheres)# cols: ['id', 'name', 'score']
# tbls: ['inser_tbl']
# froms: ['tbl']
# wheres: ['where id > 10 ']

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/22476.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue中如何获取dom元素?

在Vue中&#xff0c;通常我们不直接操作DOM元素&#xff0c;因为Vue是一个声明式渲染的框架&#xff0c;它鼓励我们使用数据驱动视图的方式来更新UI。然而&#xff0c;在某些情况下&#xff0c;你可能需要直接访问DOM元素。在这种情况下&#xff0c;你可以使用Vue的ref属性和$r…

k8s Pods漂移时间配置

默认为300秒 apiVersion: apps/v1 kind: Deployment metadata:name: my-test spec:replicas: 1selector:matchLabels:app: my-apptemplate:metadata:labels:app: my-appspec:containers:- name: my-containerimage: nginx:latestports:- containerPort: 80tolerations:- key: &…

C++语言学习(七)—— 继承、派生与多态(一)

目录 一、派生类的概念 1.1 定义派生类的语法格式 1.1.1 定义单继承派生类 1.1.2 定义多继承派生类 1.2 继承方式 二、公有继承 三、派生类的构造和析构 四、保护成员的引入 五、改造基类的成员函数 六、派生类与基类同名成员的访问方式 七、私有继承和保护继承 7.…

bug记录——报了一堆xtr1common和yvals_core.h的错误

现象 今天使用VisualStdio2022时&#xff0c;突然出现了这样严重的报错&#xff0c;看得我一头雾水&#xff0c;而且无法启动VisualStdio2022的调试。 原因 发现NULL没法直接使用时&#xff0c;跟着提示添加了如下的头文件。 #include<cstddef>&#xff0c;是C标准库的头…

代码随想录算法训练营Day61 | 总结和展望 | Python | 个人记录向

总结 感觉训练营说短不短&#xff0c;说长不长&#xff0c;没想到一下子就度过了60天的刷题之旅。训练营之前自己模糊地刷过代码随想录&#xff0c;主要是二叉树前面的章节二叉树的前一部分后面章节的前几题&#xff0c;能稍微应对面试。但是&#xff0c;我亟需对coding进行系…

Blog项目切换Markdown编辑器———LayUI弹出层弹出写在页面的内容导致的各种bug

【2024.5.24回顾】 1 问题描述(描述完自己解决了…) 正常情况 点击添加文章按钮后&#xff0c;弹出文章编辑界面&#xff0c;如果用富文本功能编辑&#xff0c;则一切正常。可以多次打开、关闭 Markdown 如果在弹出层中点击了切换编辑器按钮&#xff0c;会成功切换为markd…

使用chatgpt api快速分析pdf

需求背景 搞材料的兄弟经常要分析pdf&#xff0c;然后看到国外有产品是专门调用chatpdf来分析pdf的&#xff0c;所以就来问我能不能帮他也做一个出来。正好我有chatgpt的api&#xff0c;所以就研究了一下这玩意怎么弄。 需求分析 由于chatgpt是按字符算钱的&#xff0c;所以…

JDBC学习笔记(三)高级篇

一、JDBC 优化及工具类封装 1.1 现有问题 1.2 JDBC 工具类封装 V1.0 resources/db.properties配置文件&#xff1a; 工具类代码&#xff1a; 1.3 ThreadLocal 1.4 JDBC 工具类封装 V2.0 二、DAO封装及BaseDAO 工具类 2.1 DAO 概念 2.2 BaseDAO 概念 2.3 BaseDAO 搭建 2.4 Ba…

每天一个数据分析题(三百四十八)

理解业务分析模型能够更好的把握业务全局&#xff0c;以下属于分析模型中分类模型的是 A. RFM模型 B. 销售漏斗模型 C. 波士顿矩阵 D. 客户价值模型 数据分析认证考试介绍&#xff1a;点击进入 题目来源于CDA模拟题库 点击此处获取答案

Go 实现的命令行程序,可以通过参数来控制和消耗 CPU 占比。通常用于测试系统负载和性能。

说明 Go 实现的命令行程序&#xff0c;可以通过参数来控制和消耗 CPU 占比。通常用于测试系统负载和性能。 代码在下面 编译和运行 在终端中编译代码&#xff1a; go build 运行程序并传入 CPU 使用率参数&#xff0c;例如&#xff1a; ./tools_cpu_burner -p50代码解释 fla…

WPF前端:一个纯Xaml的水平导航栏

效果图&#xff1a; 代码&#xff1a; 1、样式代码&#xff0c;可以写在窗体资源处或者样式资源文件中 <Style x:Key"MenuRadioButtonStyle" TargetType"{x:Type RadioButton}"><Setter Property"FontSize" Value"16" />…

Always语句和assign的用法

Always语句 简介 always语句块从仿真0时刻开始执行其中的行为语句&#xff1b;最后一条执行完成后&#xff0c;再开始执行其中的第一条语句&#xff0c;如此往复循环&#xff0c;直到整个仿真结束。因此&#xff0c;always语句块常用于对数字电路中一组反复执行的活动进行建模…

【TensorFlow深度学习】RNN短时记忆缺陷与LSTM改进原理

RNN短时记忆缺陷与LSTM改进原理 RNN的局限与LSTM&#xff1a;短时记忆缺陷及其优化原理的深度解析RNN的STM问题剖析LSTM原理与改进LSTM代码实例结语 RNN的局限与LSTM&#xff1a;短时记忆缺陷及其优化原理的深度解析 在深度学习的征程中&#xff0c;循环神经网络&#xff08;R…

开源规则引擎LiteFlow项目应用实践

本文介绍基于开源规则引擎LiteFlow&#xff0c;如何开发规则设计器&#xff0c;在低代码平台中集成规则引擎&#xff0c;并在项目中实现应用的效果。由于低代码平台使用规则引擎实现了逻辑编排的需求&#xff0c;所以本文中的叫法为“逻辑设计”、“逻辑编排”、“逻辑流引擎”…

.NET IoC 容器(三)Autofac

目录 .NET IoC 容器&#xff08;三&#xff09;AutofacAutofacNuget 安装实现DI定义接口定义实现类依赖注入 注入方式构造函数注入 | 属性注入 | 方法注入注入实现 接口注册重复注册指定参数注册 生命周期默认生命周期单例生命周期每个周期范围一个生命周期 依赖配置Nuget配置文…

0基础学习区块链技术——推演猜想

在《0基础学习区块链技术——入门》一文中&#xff0c;我们结合可视化工具&#xff0c;直观地感受了下区块的结构&#xff0c;以及链式的前后关系。 本文我们将抛弃之前的知识&#xff0c;从0开始思考和推演&#xff0c;区块链技术可能是如何构思出来的。 去中心 在一般的思维…

回溯算法之组合总和2

题目&#xff1a; 给定一个候选人编号的集合 candidates 和一个目标数 target &#xff0c;找出 candidates 中所有可以使数字和为 target 的组合。 candidates 中的每个数字在每个组合中只能使用 一次 。 注意&#xff1a;解集不能包含重复的组合。 示例 1: 输入: candi…

浅谈配置元件之随机变量

浅谈配置元件之随机变量 1.概述 为了增强测试的真实性和多样性&#xff0c;JMeter 提供了多种配置元件来生成动态数据&#xff0c;其中“随机变量”(Random Variable) 就是一种常用的配置元件&#xff0c;用于生成随机数值、字符串等&#xff0c;以模拟不同用户请求中的变化参…

认识meta

目录 认识meta camera_metadata的存储结构 camera_metadata的基本操作 申请camera_metadata 增加entry 查找entry 更新entry 删除entry 对tag的查找操作 vendor_tag_ops和vendor_cache_ops是Andriod提供的接口 propertyID Camxhal3metadatautil.cpp文件理解 Initia…

Redisson 分布式锁 - RLock、RReadWriteLock、RSemaphore、RCountDownLatch(配置、使用、原理)

目录 前言 Redisson 分布式锁 环境配置 1&#xff09;版本说明 2&#xff09;依赖如下 3&#xff09;配置文件如下 4&#xff09;项目配置 RLock 1&#xff09;使用方式 2&#xff09;加锁解释 3&#xff09;加锁时手动设置时间 4&#xff09;加锁时&#xff0c;到…