工作中遇到的spark SQL小问题:包含某个或某些字符的条件

今天又来总结工作中遇到的问题了,今天是SQL,spark引擎

需求描述,筛选渠道包含”线上化“的数据

也就是讨论where里面的这个筛选条件怎么写

一般起手都是

where QD like '%线上化%‘

学习了其他的写法:

1.INSTR函数

where INSTR(QD,"线上化") <> 0

INSTR函数的介绍:

INSTR 函数通常用于查找一个子字符串在另一个字符串中首次出现的位置。如果找到子字符串,函数会返回其首次出现的位置(位置从 1 开始计数);如果未找到,函数会返回 0。

2.正则表达式匹配

where QD REGEXP "线上化"

好处在于,如果我的应用场景是包含多个字符串其中一个的

WHERE QD REGEXP '金融科技部|投资银行部|人力资源部'

| 表示或关系,意味着只要 QD 列中的字符串包含 “金融科技部”、“投资银行部” 或者 “人力资源部” 中的任意一个,就会被筛选出来。

正则表达式的匹配操作通常会比普通的字符串比较操作更耗费资源,所以在处理大量数据时,可能会对性能产生一定影响。

三者的比较,参考豆包的回复

功能

  • WHERE QD LIKE '%线上化%'LIKE 是 SQL 中用于字符串模糊匹配的操作符。% 是通配符,表示任意数量(包括零个)的任意字符。因此,'%线上化%' 表示匹配包含 “线上化” 的任意字符串。它只能处理简单的通配符匹配,无法进行复杂的模式匹配。
  • WHERE INSTR(QD, "线上化") <> 0INSTR 是一个函数,用于返回子字符串在字符串中第一次出现的位置。如果 QD 列包含 “线上化”,则 INSTR(QD, "线上化") 的返回值大于 0;如果不包含,则返回 0。因此,INSTR(QD, "线上化") <> 0 表示 QD 列包含 “线上化”。
  • WHERE QD REGEXP "线上化"REGEXP 是 SQL 中的正则表达式匹配操作符,用于按照正则表达式模式来匹配字符串。“线上化” 是一个简单的正则表达式模式,表示匹配包含 “线上化” 的字符串。正则表达式可以进行更复杂的模式匹配,如字符类、量词、分组等。

性能

  • WHERE QD LIKE '%线上化%':由于 LIKE 操作符使用了通配符 % 在开头,数据库无法使用索引进行快速查找,因此性能通常较差,尤其是在处理大量数据时。
  • WHERE INSTR(QD, "线上化") <> 0INSTR 函数同样无法利用索引进行优化,需要对每一行数据进行全字符串扫描,因此性能也较差。
  • WHERE QD REGEXP "线上化":正则表达式匹配通常比 LIKE 和 INSTR 更复杂,需要更多的计算资源,因此性能可能是三者中最差的。

总结

  • 如果只需要进行简单的模糊匹配,建议使用 LIKE 操作符,因为它的语法简单,性能相对较好。
  • 如果对性能要求不高,且需要使用函数进行更灵活的处理,可以使用 INSTR 函数。
  • 如果需要进行复杂的模式匹配,如匹配特定格式的字符串、进行字符类匹配等,则应使用 REGEXP 操作符。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/73456.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Git 命令操作完全指南

Git 是现代软件开发中不可或缺的分布式版本控制系统。它不仅能追踪代码变更&#xff0c;还能协调多人协作、管理项目历史。本文从核心概念入手&#xff0c;逐步深入讲解 Git 的基础与高级命令&#xff0c;结合实用场景&#xff0c;帮助您从入门到精通。 一、Git 核心概念 理解…

深入剖析带头循环双向链表的实现与应用

引言 场景描述 想象一个 环形地铁线路&#xff08;如深圳地铁11号线&#xff09;&#xff0c;这条线路首尾相连&#xff0c;列车可以顺时针或逆时针循环行驶。为了方便管理&#xff0c;地铁系统设置了一个 “虚拟调度中心”&#xff08;头节点&#xff09;&#xff0c;它不承…

DeepSeek Smallpond 在火山引擎 AI 数据湖的探索实践

资料来源&#xff1a;火山引擎-开发者社区 DeepSeek Smallpond 介绍 Smallpond 是一套由 DeepSeek 推出的 、针对 AI 领域&#xff0c;基于 Ray 和 DuckDB 实现的轻量级数据处理引擎&#xff0c;具有以下优点&#xff1a; 1.轻量级 2.高性能 3.支持规模大 4.无需运维 5.P…

Linux进程间的通信

进程间通信 1.进程间通信介绍2.匿名命名管道原理操作 1.进程间通信介绍 1.1 进程间通信目的&#xff1a;一个进程需要将他的数据发送给另一个进程&#xff0c;大家应该都多少接触过linux中的管道符"|"&#xff0c;这个符号就是用来多个命令执行&#xff0c;在Linux中…

直播预告 | TDgpt 智能体发布 时序数据库 TDengine 3.3.6 发布会即将开启

从海量监控数据&#xff0c;到工业、能源、交通等场景中实时更新的各类传感器数据&#xff0c;时序数据正在以指数级速度增长。而面对如此庞杂的数据&#xff0c;如何快速分析、自动发现问题、精准预测未来&#xff0c;成为企业数字化转型过程中的关键挑战。 TDengine 的答案是…

手撕FIO工具指南:从压测翻车到避坑实战

文章目录 手撕FIO工具指南&#xff1a;从压测翻车到避坑实战一、背景&#xff1a;一次FIO压测引发的惊魂夜二、FIO vs 其他IO工具&#xff1a;为何让人又爱又怕&#xff1f;三、安装指南&#xff1a;避开依赖地狱四、参数详解五、避坑指南&#xff1a;血泪经验总结六、安全压测…

智能汽车图像及视频处理方案,支持视频星轨拍摄能力

美摄科技作为智能汽车图像及视频处理领域的先行者&#xff0c;正以革新性的技术引领着行业的未来发展。美摄科技智能汽车图像及视频处理方案&#xff0c;一个集高效性、智能化、画质增强于一体的创新解决方案&#xff0c;旨在重塑智能汽车图像画质的新标准&#xff0c;并支持前…

B站左神算法课学习笔记(P7):图

目录 一、图的存储方式&#xff08;千奇百怪&#xff09; 1&#xff09;邻接表 2&#xff09;邻接矩阵 3&#xff09;其他 4&#xff09;推荐存储方式&#xff08;代码&#xff09; 二、图的遍历 &#xff08;1&#xff09;宽度优先遍历 &#xff08;2&#xff09;深度…

深度解析「前缀和」与「差分法」:高效算法的基石

深度解析前缀和与差分法&#xff1a;高效算法的基石 在计算机科学和数据处理领域&#xff0c;前缀和&#xff08;Prefix Sum&#xff09;与差分法&#xff08;Difference Method&#xff09;是两种基础且高效的算法技术。它们在处理数组的区间查询和区间修改操作时&#xff0c…

2-1 基本放大电路

放大的概念 mV →V mA→A 特征&#xff1a;放大功率&#xff08;电压与电流&#xff09;。 本质&#xff1a;能量在控制下的转换。&#xff08;外接供电电源&#xff09; 必要条件&#xff1a;有源元件&#xff08;能量控制原件&#xff09; 前提&#xff1a;不失真 测试的…

详解接口的常见请求方式

详解接口的常见请求方式 一、 常见接口请求方式1. GET2. POST3. PUT4. DELETE5. PATCH6. HEAD7. OPTIONS 二、 实现方法1. 前端实现2. 后端实现 三、 作用与主要区别四、 举例讲解1. 创建 Spring Boot 工程2. 添加依赖3. 编写 Controller 实现接口关键点说明 4. 启动与测试5. 总…

【附代码】【MILP建模】3D装箱问题(3D-Bin Packing Problem)

文章目录 相关教程相关文献问题描述建模思路——carton 方向平行轴建模方法&#xff08;9变量6约束&#xff09;平行轴建模方法&#xff08;4变量8约束&#xff09;枚举建模方法&#xff08;6变量1约束&#xff09; 建模思路——carton 位置平行轴建模方法枚举建模方法 Bin长宽…

【计算机网络中的奈氏准则与香农定理】

文章目录 一、前言二、奈氏准则1. 概念2. 奈氏准则公式3. 奈氏准则的意义 三、香农定理1. 概念2. 香农定理公式3. 香农定理的意义 四、奈氏准则与香农定理的对比五、应用示例1. 奈氏准则示例2. 香农定理示例 六、总结 一、前言 在计算机网络中&#xff0c;数据的传输速率与信道…

【C++】回调函数和回调对象

文章目录 回调可调用对象函数指针作回调函数对象作回调函数对象的使用std::function【C11】作回调使用 【C11】Lambda表达式作回调【C11】bind对象作回调std::bind的使用作回调使用 回调 当发生某种事件时需要调用或触发另一个事件即为回调&#xff0c;回调的核心即为将可调用…

DeepSeek助力文案,智能音箱如何改变你的生活?

你好&#xff0c;我是三桥君 你有没有为写智能音箱的宣传文案而抓耳挠腮过&#xff1f;三桥君在这方面可是有些感想&#xff0c;今天就来给你唠唠怎么用DeepSeek写出超赞的智能音箱宣传文案。 首先&#xff0c;你得给DeepSeek喂足“料”。这就好比做饭&#xff0c;你得准备好各…

【区块链安全 | 第一篇】密码学原理

文章目录 1.哈希函数1.1 哈希函数的性质1.2 常见哈希算法1.3 Merkle Tree&#xff08;默克尔树&#xff09;1.4 HMAC&#xff08;哈希消息认证码&#xff09; 2. 公钥密码学2.1 对称加密 vs 非对称加密2.2 RSA 算法2.3 ECC&#xff08;椭圆曲线密码学&#xff09;2.4 Diffie-He…

基于websocketpp实现的五子棋项目

该博客对于学完C和linux操作系统&#xff0c;但不知道如何用C开发项目&#xff0c;已经不知道C如何使用第三方库的人来说一定很有帮助&#xff0c;请耐心看完&#xff01; 先看一下游戏会显示的前端界面&#xff0c;对理解这个游戏的前后端交互过程会有帮助 1. 开发环境 1.1 …

基于Redis分布锁+事务补偿解决数据不一致性问题

基于Redis的分布式设备库存服务设计与实现 概述 本文介绍一个基于Redis实现的分布式设备库存服务方案&#xff0c;通过分布式锁、重试机制和事务补偿等关键技术&#xff0c;保证在并发场景下库存操作的原子性和一致性。该方案适用于物联网设备管理、分布式资源调度等场景。 …

RK3568笔记八十: Linux 小智AI环境搭建

若该文为原创文章&#xff0c;转载请注明原文出处。 最近小智AI火了&#xff0c;韦老师出了 Linux 小智 AI 聊天机器人 版本&#xff0c;想移植到 RK3568上&#xff0c; 由于和韦老师硬件不同&#xff0c;所以需要交叉编译一些库&#xff0c;为后续移植做准备。 一、环境 1、…

C# SerialPort 使用详解

总目录 前言 在工业控制、物联网、嵌入式开发等领域&#xff0c;串口通信&#xff08;Serial Port Communication&#xff09;是连接串行设备&#xff08;如条码扫描器、GPS接收器等&#xff09;与计算机的重要手段。C# 提供了内置的 SerialPort 类&#xff0c;简化了串口开发…