Interview preparation--案例加密后数据的模糊查询

加密数据的模糊查询实现方案
  • 我们知道加密后的数据对模糊查询不是很友好,本篇就针对加密数据模糊查询这个问题来展开讲一讲实现的思路,希望对大家有所启发。
  • 为了数据安全我们在开发过程中经常会对重要的数据进行加密存储,常见的有:密码、手机号、电话号码、详细地址、银行卡号、信用卡验证码等信息,这些信息对加解密的要求也不一样,比如说密码我们需要加密存储,一般使用的都是不可逆的慢hash算法,慢hash算法可以避免暴力破解(典型的用时间换安全性)。
  • 因此在作完加密之后的字符串之后,加密算法会抹去原来字符的一些特性,让结果字符串没有可识别的特点,这样目的是确保安全性,即使被截获还是无法轻易的破解。但是这样也就造成了查询的复杂性。
  • 一般我们在加密数据查询都是用如下方式,利用等值查询来获取:
select * from t_test_aes where message_id = '0xF3F4127D4D1AEC1DC5A620CE5E8C7F4F';
  • 以上手段都无法做到模糊查询,例如银行用户的真实用户名,是一个敏感数据,如何模糊查询用户名字是一个难点
加密数据模糊查询方案一
  • 数据库中实现加密,解密,有如下SQL
drop table if exists t_test_aes;
CREATE TABLE `t_test_aes` (`id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT 'id',`message_id` BLOB(20) NOT NULL COMMENT '消息Id',PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=3 DEFAULT CHARSET=utf8mb4 COMMENT='aes测试表';
## 添加数据
insert into t_test_aes( message_id) values ( AES_ENCRYPT('test_message2', 'test_key'));
insert into t_test_aes( message_id) values ( AES_ENCRYPT('test_message3', 'test_key'));
insert into t_test_aes( message_id) values ( AES_ENCRYPT('test_message4', 'test_key'));
  • 有如上数据库表,我们定义message_id用来做模糊查询,在添加数据时候,不在代码中加密,而是在mysql数据库中加密,利用数据库自己的加密算法完成脱敏,如下insert
## 添加数据
insert into t_test_aes( message_id) values ( AES_ENCRYPT('test_message2', 'test_key'));
insert into t_test_aes( message_id) values ( AES_ENCRYPT('test_message3', 'test_key'));
insert into t_test_aes( message_id) values ( AES_ENCRYPT('test_message4', 'test_key'));
  • 同样在查询的时候,也可以用这个方法进行模糊查询
## 查询数据
select * from t_test_aes where AES_DECRYPT(message_id, 'test_key') like '%2%';
select * from t_test_aes where message_id = '0xF3F4127D4D1AEC1DC5A620CE5E8C7F4F';
优缺点
  • 优点是实现成本低,开发使用成本低,只需要将以往的模糊查找稍微修改一下就可以实现
  • 缺点也很明显,这样做无法利用数据库的索引来优化查询,甚至有一些数据库可能无法保证与程序实现一致的加解密算法,但是对于常规的加解密算法都可以保证与应用程序一致
加密数据模糊查询方案二
  • 对密文数据进行分词组合,将分词组合的结果集分别进行加密,然后存储到映射表,查询时通过key like ‘%partial%’,这是一个比较划算的实现方法,我们先来分析一下它的实现思路
  • 先对字符进行固定长度的分组,将一个字段拆分为多个,比如说根据4位英文字符(半角),2个中文字符(全角)为一个检索条件,举个例子:
test_message_one 使用4个字符为一组的加密方式, 第一组test,第二组est_,第三组st_m,第四组t_mes … 依次类推。
  • 如果需要检索所有包含检索条件4个字符的数据比如:test,加密字符后通过 key like “%partial%” 查库。

  • 重要:要实现以上加密算法的模糊查询,必须有固定的加密算法满足以下需求:

假如原序列 A 加密后的 值是X
那么存在 A的连续子序列 B 加密后的值是Y
必须保证 Y 也是X 的连续子序列
例如如下加密算法的结果久满足需求:
test_message_one 加密后值为 whvwbphvvdjhbrqh
test 加密之后的值为  whvw
  • 依据以上分析,我们有如下Sql案例做具体说明:
drop table if exists t_test_aes_target;
CREATE TABLE `t_test_aes_target` (`id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT 'id',`message_id` varchar(256) NOT NULL COMMENT '消息Id',PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=3 DEFAULT CHARSET=utf8mb4 COMMENT='加密测试表';drop table if exists t_test_aes_sub;
CREATE TABLE `t_test_aes_sub` (`id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT 'id',`target_id` bigint(20) NOT NULL COMMENT 'id',`origin_msg` varchar(256) NOT NULL COMMENT '消息Id',`message_id_buf` varchar(256) NOT NULL COMMENT '消息Id',PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=3 DEFAULT CHARSET=utf8mb4 COMMENT='拆分加密测试表';
  • 添加如下加密数据到目标数据表中:
insert into t_test_aes_target(id, message_id) values (1, 'whvwbphvvdjhbrqh');
  • 添加如下拆分后的关连数据到如下表中:
insert into t_test_aes_sub(target_id, origin_msg, message_id_buf) values (1, 'test' , 'whvw');
insert into t_test_aes_sub(target_id, origin_msg, message_id_buf) values (1, 'est_' , 'hvwb');
insert into t_test_aes_sub(target_id, origin_msg, message_id_buf) values (1, 'st_m' , 'vwbp');
insert into t_test_aes_sub(target_id, origin_msg, message_id_buf) values (1, 't_me' , 'wbph');
insert into t_test_aes_sub(target_id, origin_msg, message_id_buf) values (1, '_mes' , 'bphv');
insert into t_test_aes_sub(target_id, origin_msg, message_id_buf) values (1, 'mess' , 'phvv');
insert into t_test_aes_sub(target_id, origin_msg, message_id_buf) values (1, 'essa' , 'hvvd');
insert into t_test_aes_sub(target_id, origin_msg, message_id_buf) values (1, 'ssag' , 'vvdj');
insert into t_test_aes_sub(target_id, origin_msg, message_id_buf) values (1, 'sage' , 'vdjh');
insert into t_test_aes_sub(target_id, origin_msg, message_id_buf) values (1, 'age_' , 'djhb');
insert into t_test_aes_sub(target_id, origin_msg, message_id_buf) values (1, 'ge_o' , 'jhbr');
insert into t_test_aes_sub(target_id, origin_msg, message_id_buf) values (1, 'e_on' , 'hbrq');
insert into t_test_aes_sub(target_id, origin_msg, message_id_buf) values (1, '_one' , 'brqh');
  • 加密算法说明:我们可以采用一种简单的方法:将原字符串转换为一个固定大小的数组,然后对数组中的每个元素进行简单的变换(例如,ASCII值加一个固定偏移量)。这样,当子字符串被加密时,由于它是原字符串的一部分,其加密结果自然也是原字符串加密结果的子串
 // 加密方法public static String encrypt(String input) {return shiftString(input, SHIFT);}// 通过ASCII值偏移量来加密字符串private static String shiftString(String input, int shift) {char[] chars = input.toCharArray();for (int i = 0; i < chars.length; i++) {chars[i] = (char) (chars[i] + shift);}return new String(chars);}public static List<String> splitStringByCharacterType(String input, Integer num) {if(StringUtils.isBlank(input)){return Arrays.asList();}if(input.length() <= 4){return Arrays.asList(input);}List<String> result = new ArrayList<>();for (int i = 0; i <= input.length() - 4; i++) {result.add(input.subSequence(i, i+4).toString());}return result;}
  • 通过以上加密方式以及数据维护方式来维护的数据,可以用如下查询来完成:
  • 第一直接通过子字符串 的加密密文模糊查询
select * from t_test_aes_target where message_id like '%whvw%';
  • 第二,通过关联表来查询,关联表通过test加密密文查询出关联id,通过id主键查询完成:
select * from t_test_aes_target where id in (select id from t_test_aes_sub where message_id_buf like '%whvw%');
优缺点
  • 优点就是实现起来不算复杂,使用起来也较为简单,算是一个折中的做法,因为会有扩展字段存储成本会有升高,但是可利用数据库索引优化查询速度,推荐使用这个方法。
  • 缺点这个方法虽然可以实现加密数据的模糊查询,但是对模糊查询的字符长度是有要求的,以我上面举的例子模糊查询字符原文长度必须大于等于4个英文/数字,或者2个汉字,再短的长度不建议支持,因为分词组合会增多从而导致存储的成本增加,反而安全性降低。而且这种加密算法的安全性不高

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/26618.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python学习从0开始——Kaggle计算机视觉001

Python学习从0开始——Kaggle计算机视觉001 一、卷积分类器1.分类器2.训练分类器3.使用 二、卷积和RELU1.特征提取2.带卷积的过滤器定义3.激活&#xff1a;4.用ReLU检测5.使用 三、最大池化1.最大池压缩2.使用3.平移不变性 四、滑动窗口1.介绍2.步长3.边界4.使用 五、自定义Con…

Vue 简单自定义标签

Vue 简单自定义标签 思路&#xff1a; 1、计算每个项离父级左侧宽 left 2、计算当前滑块的宽&#xff0c;绝对定位 3、下一个项的宽/2-滑块的宽/2下一项离父级左侧的宽 left 4、使用定位left&#xff08;性能较差一点&#xff09; 或 translate 移动距离 <template><…

(几何:六边形面积)编写程序,提示用户输入六边形的边长,然后显示它的面积。

(几何:六边形面积)编写程序&#xff0c;提示用户输入六边形的边长&#xff0c;然后显示它的面积。计 算六边形面积的公式是: 这里的s就是边长。下面是一个运行示例 package myjava; import java.math.*; import java.util.Scanner; public class cy {public static void main(S…

【MIT6.S081】准备工作

官方网站&#xff1a; 6.S081 / Fall 2020 相关资源&#xff1a; GitHub - PKUFlyingPig/MIT6.S081-2020fall: MIT undergraduate operating system course 版本控制 6.S081 All-In-One MIT6.S081 | Miigons blog

gridview的模板按钮如何判断用户点击的是哪一行

在asp.net的 GridView 控件中&#xff0c;判断用户点击的是哪一行通常可以通过处理 GridView 的 RowCommand 事件来实现。RowCommand 事件会在 GridView 的每个按钮&#xff08;除非另有指定的CommandName&#xff09;被点击时触发&#xff0c;并且事件参数中包含了足够的信息来…

【机器学习300问】116、什么是序列模型?序列模型能干什么?

一、序列模型是什么&#xff1f; 序列模型是机器学习领域中专门设计来处理具有时间顺序或序列结构数据的模型。这类模型能够理解和学习数据中的顺序依赖关系&#xff0c;因此非常适合诸如自然语言处理、语音识别、音乐生成、时间序列预测等任务。 看了上面的定义&#xff0c;似…

鸿蒙 navigation路由跳转,页面struct 下的生命周期、onShow、onHidden等不会触发问题

经常用安卓思维考虑问题&#xff0c;用习惯了Router方式跳转&#xff0c;但是官方推荐用 navigation&#xff0c;当然它有它的有点&#xff0c; 也有小瑕疵&#xff0c;用了api11 后 发现 navigation路由跳转 &#xff0c;只要被它包裹的跳转到下页面的&#xff0c;有些生命周期…

2024-06-12 问AI: 在大语言模型中,什么是Jailbreak漏洞?

文心一言 在大语言模型中&#xff0c;Jailbreak漏洞&#xff08;也称为越狱攻击或指令注入攻击&#xff09;是一种特定的安全漏洞&#xff0c;它允许用户或攻击者通过精心设计的输入或指令&#xff0c;绕过模型的安全限制&#xff0c;诱导模型产生原本被设定为禁止或限制的输出…

阿里云域名解析

阿里云域名控制台&#xff1a;https://dc.console.aliyun.com/next/index#/domain-list/all

.net 调用海康SDK以及常见的坑解释

📢欢迎点赞 :👍 收藏 ⭐留言 📝 如有错误敬请指正,赐人玫瑰,手留余香!📢本文作者:由webmote 原创📢作者格言:新的征程,我们面对的不仅仅是技术还有人心,人心不可测,海水不可量,唯有技术,才是深沉黑夜中的一座闪烁的灯塔 !序言 在工控领域,很多时候需要…

MPT(merkle Patricia trie )及理解solidity里的storage

what&#xff1f; MPT树是一种数据结构&#xff0c;用于在以太坊区块链中高效地存储和检索账户状态、交易历史和其他重要数据。MPT树的设计旨在结合Merkle树和Patricia树的优点&#xff0c;以提供高效的数据存储和验证 MPT树由四种类型的节点组成&#xff1a; **扩展节点&…

max code size exceeded

Warning! Error encountered during contract execution [max code size exceeded] 智能合约编译时提示 contracts/core/CORE.sol:15:1: Warning: Contract code size exceeds 24576 bytes (a limit introduced in Spurious Dragon). This contract may not be deployable on m…

小而美的算法技巧:前缀和数组

小而美的算法技巧&#xff1a;前缀和数组 类似动态规划。 class NumArray {private int[] preSum;public NumArray(int[] nums) {preSumnew int[nums.length1];//preSum[0]的前缀和为0for(int i1;i<preSum.length;i){preSum[i]nums[i-1]preSum[i-1];//先计算累加和}}publi…

C++和Python相互调用(1)

Python的官方解释器CPython是用C语言编写&#xff0c;它提供了强大的C API&#xff0c;使得Python可以扩展和嵌入C和C代码。这种互操作性主要通过以下机制实现&#xff1a; Python/C API&#xff1a; Python解释器提供了一组C API&#xff0c;允许开发者编写C或C扩展模块。这…

解锁ChatGPT:从原理探索到GPT-2的中文实践及性能优化

⭐️我叫忆_恒心&#xff0c;一名喜欢书写博客的研究生&#x1f468;‍&#x1f393;。 如果觉得本文能帮到您&#xff0c;麻烦点个赞&#x1f44d;呗&#xff01; 近期会不断在专栏里进行更新讲解博客~~~ 有什么问题的小伙伴 欢迎留言提问欧&#xff0c;喜欢的小伙伴给个三连支…

视频生成模型 Dream Machine 开放试用;微软将停止 Copilot GPTs丨 RTE 开发者日报 Vol.224

开发者朋友们大家好&#xff1a; 这里是 「RTE 开发者日报」 &#xff0c;每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE&#xff08;Real-Time Engagement&#xff09; 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文…

MPLS工作过程

控制层面&#xff1a;路由协议工作&#xff0c;生成RIB-FIB&#xff0c;流量的方向即为控制流量&#xff1b; 数据层面&#xff1a;设备基于路由表访问目标&#xff0c;产生数据流量&#xff1b;与控制层面方向相反&#xff1b; 控制层面&#xff1a; 1) 在没有 MPLS 时控制层…

2.6数据报与虚电路

数据报 当作为通信子网用户的端系统要发送一个报文时&#xff0c;在端系统中实现的高层协议先把报文拆成若干个带有序号的数据单元&#xff0c;并在网络层加上地址等控制信息后形成数据报分组(即网络层PDU)中间结点存储分组一段很短的时间&#xff0c;找到最佳的路由后&#x…

TCP是什么、UDP是什么,它们有什么区别

目录 TCP 1.面向连接 2.可靠性 3.流量控制 4.拥塞控制 5.全双工通信 6.面向字节流 7.总结 UDP 1.无连接 2.不可靠 3.头部开销小 4.支持一对多、多对一和多对多通信 5.传输效率高 6.适合传输少量数据 7.总结 TCP和UDP的主要区别 1.连接性 2.可靠性 3.头部开…

6.nginx负载均衡

说明 增加服务器的数量,将请求分发到各个服务器上。 将原来请求集中到单个服务器上的情况改为将请求分发到多个服务器上。 案例 浏览器请求地址http://ip/edu/a.html, 负载均衡的效果,平分到8080和8081两台服务上中。 准备工作 tomcat8080配置 tomcat8081配置 直接通过…