机关党建网站建设策划/唐山seo排名外包

机关党建网站建设策划,唐山seo排名外包,济南城乡建设网站,衡水提供网站制作公司哪家好本文将介绍一种简单高效的方法解决用户在上传文件到DeepSeek、ChatGPT,文心一言,AI等大语言模型平台过程中的护照号识别和脱敏问题。 DeepSeek、ChatGPT,Qwen,Claude等AI平台工具快速的被接受和使用,用户每天上传的文…

本文将介绍一种简单高效的方法解决用户在上传文件到DeepSeek、ChatGPT,文心一言,AI等大语言模型平台过程中的护照号识别和脱敏问题。

DeepSeek、ChatGPT,Qwen,Claude等AI平台工具快速的被接受和使用,用户每天上传的文本数据中潜藏着大量敏感信息,大量的AI服务数据泄漏事件源于未正确处理输入数据。

  • 你是否在上传数据到deepseek,chatgpt,通义千问,豆包,腾讯元宝,纳米搜索等平台之前犹豫过?
  • 是否纠结如何快速的检查数据中是否存在敏感信息?
  • 是否受制于如何快速轻量的对这些数据进行脱敏?
  • 你是否担心数据上传到大语言模型等AI平台之后,敏感信息等会被用于特殊的用途?
  • 你是否担心数据不仅会被大模型平台获取,还会被诸多的插件应用获取?

那么本文将帮你找到答案。前面的文章介绍了手机号,身份证号的脱敏,详见这里。

如果不想了解原理部分的内容,可以直接跳转到护照号脱敏章节获取使用的方法和技巧,本文的目录结构如下:
在这里插入图片描述

如果不想了解原理部分的内容,可以直接跳转到单一敏感信息脱敏章节获取使用的方法和技巧。

护照号脱敏

下面将使用cyberchef对于护照号进行识别和脱敏。相信大家现在万事都会首先问下deepseek,先看询问deepseek结果如何:
在这里插入图片描述
对于cyberchef的使用,目前deepseek给出的结果大方向正确的,但是不能够直接拿来使用,例如其中的正则只是覆盖了部分的护照格式,同时出现了AI幻觉的问题,生成的内容填入cyberchef是无法被识别的,有比较多的操作性的错误。这也是本文有别于AI的价值,能够帮助你高效的完成这一项工作。

上述的答案虽然结果虽然不全对,但是仍有一些地方倒是存在一些价值,例如可以基于其中的正则进行修改。对于文本文件来说,识别这些信息主要靠的是正则表达式。有了正则表达式之后,就可以使用cyberchef的正则模块,进行识别,测试正则是否正确。

护照号测试用例

由于护照号的的类型是非常的多,上述的提问只是给出的正则只是覆盖了护照的几种形式,因此需要针对护照的种类,继续提问deepseek,如下:
在这里插入图片描述
基于deepseek的回答,构造一组包含护照信息的测试数据如下:

手机号:18811112222 姓名:张三 护照:G12345678 URL:https://xiaofan.blog.csdn.net
手机号:17711112222 姓名:李小四 护照:DE1234567  URL:https://xiaofan.blog.csdn.net
手机号:19911112222 姓名:村中少年 护照:SE 12 3456  URL:https://xiaofan.blog.csdn.net
手机号:16611112222 姓名:王五 护照:H12-345-678  URL:https://xiaofan.blog.csdn.net

find操作正则

虽然deepseek给出的所有护照种类仍然的不完整,但是其中给出的正则已经能够满足一些场景的需求。有了上述cyberchef的提示,并基于测试用例优化正则直至匹配上所有的测试用例为止,效果如下:

在这里插入图片描述
对应的cyberchef脚本如下:

[{ "op": "Regular expression","args": ["User defined", "([EG]|DE|SE|H|M)[-\\s]*(\\d{2,})[-\\s]*(\\d{2,3})[-\\s]*(\\d{1,})", true, true, false, false, false, false, "Highlight matches"] }
]

确认上述的正则能够匹配所有的测试用例之后,只保留前一到两位的字母,使用replace操作替换如下:
在这里插入图片描述
对应的cyberchef脚本如下:

[{ "op": "Find / Replace","args": [{ "option": "Regex", "string": "([EG]|DE|SE|H|M)[-\\s]*(\\d{2,})[-\\s]*(\\d{2,3})[-\\s]*(\\d{1,})" }, "$1*******", true, false, true, false] }
]

这里需要知道$1的用法,表示的是第一个被识别和提取的部分。

register操作正则

如果直接让deepseek给出正则的识别护照,给出的正则表达式可能和上述的正则不同,如下:
在这里插入图片描述
使用上述正同样能够匹配上述的测试用例,如下:
在这里插入图片描述
cyberchef对应的脚本为:

[{ "op": "Regular expression","args": ["User defined", "(?P<ordinary>[EG](?:[\\s-]*\\d){8})|(?P<diplomatic>DE(?:[\\s-]*\\d){7})|(?P<official>SE(?:[\\s-]*\\d){6})|(?P<hk>H(?:[\\s-]*\\d){8})|(?P<macau>M(?:[\\s-]*\\d){8}) ", true, true, false, false, false, false, "Highlight matches"] }
]

如果使用上述的正则,则需要使用register操作进行替换(find操作使用该正则不生效),对于护照号保留前2位即可,其他部分使用星号进行替换,如下:
在这里插入图片描述
对应的cyberchef脚本如下:

[{ "op": "Fork","args": ["\\n", "\\n", false] },{ "op": "Register","args": ["(?P<ordinarynew>G(?:[\\s-]*\\d){8})|(?P<ordinaryold>E(?:[\\s-]*\\d){8})|(?P<diplomatic>DE(?:[\\s-]*\\d){7})|(?P<official>SE(?:[\\s-]*\\d){6})|(?P<hk>H(?:[\\s-]*\\d){8})|(?P<macau>M(?:[\\s-]*\\d){8})", true, false, false] },{ "op": "Find / Replace","args": [{ "option": "Regex", "string": "$R0" }, "G*****", true, false, true, false] },{ "op": "Find / Replace","args": [{ "option": "Regex", "string": "$R2" }, "DE******", true, false, true, false] },{ "op": "Find / Replace","args": [{ "option": "Regex", "string": "$R3" }, "SE******", true, false, true, false] },{ "op": "Find / Replace","args": [{ "option": "Regex", "string": "$R4" }, "H*******", true, false, true, false] }
]

这里面涉及到几个关键点:

  • 正则的编写直接询问deepseek即可。
  • 关于fork的用法详见 详见我之前的文章《Cyberchef基础概念之-分叉合并-fork/merge》,详见这里。
  • 关于register的用法详见我之前的文章《cyberchef基础概念之-寄存器-Register》,详见这里。
  • 对于register中R0,R1,R2,R3的理解和使用

增加护照名识别

如果想要更加精准的识别,在上述的基础上加上护照的限定会更加的准确,如下:
在这里插入图片描述

[{ "op": "Regular expression","args": ["User defined", "护照[::\\s]*([EG]|DE|SE|H|M)[-\\s]*(\\d{2,})[-\\s]*(\\d{2,3})[-\\s]*(\\d{1,})", true, true, false, false, false, false, "Highlight matches"] }
]

在这里插入图片描述

[{ "op": "Regular expression","args": ["User defined", "护照[::\\s]*((?P<ordinarynew>G(?:[\\s-]*\\d){8})|(?P<ordinaryold>E(?:[\\s-]*\\d){8})|(?P<diplomatic>DE(?:[\\s-]*\\d){7})|(?P<official>SE(?:[\\s-]*\\d){6})|(?P<hk>H(?:[\\s-]*\\d){8})|(?P<macau>M(?:[\\s-]*\\d){8}))", true, true, false, false, false, false, "Highlight matches"] }
]

其他内容的脱敏

上述的敏感信息种类中可知,还存在着证件信息,金融账户信息,财产信息,网络行为信息等,例如姓名,银行卡号,车牌号,护照,邮箱,密码,IP地址等其他的敏感信息,这些信息如何脱敏处理,详见我的专栏《脱敏Deepseek/Chatgpt等AI大模型中的敏感数据》,这里。

JSON/XML脱敏

上述只是介绍了无结构的TEXT的文本的处理方法,当然有的文本文件是有格式的,那么针对JSON和XMl这两种最为常见的格式,如下处理呢,请移步至《识别并脱敏上传到deepseek/chatgpt JSON数据中的敏感信息》和《识别并脱敏上传到deepseek/chatgpt XML数据中的敏感信息》,详见这里和这里。

其他格式文件脱敏

那么针对word,excel,ppt,pdf,各种图片文件这写常见的格式,如何处理呢,请移步我的专栏《脱敏Deepseek/Chatgpt等AI大模型中的敏感数据》,这里。

本文为CSDN村中少年原创文章,未经允许不得转载,博主链接这里。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/73847.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据驱动进化:AI Agent如何重构手机交互范式?

如果说AIGC拉开了内容生成的序幕&#xff0c;那么AI Agent则标志着AI从“工具”向“助手”的跨越式进化。它不再是简单的问答机器&#xff0c;而是一个能够感知环境、规划任务并自主执行的智能体&#xff0c;更像是虚拟世界中的“全能员工”。 正如行业所热议的&#xff1a;“大…

【AI News | 20250319】每日AI进展

AI Repos 1、XianyuAutoAgent 实现了 24 小时自动化值守的 AI 智能客服系统&#xff0c;支持多专家协同决策、智能议价和上下文感知对话&#xff0c;让我们店铺管理更轻松。主要功能&#xff1a; 智能对话引擎&#xff0c;支持上下文感知和专家路由阶梯降价策略&#xff0c;自…

C语言自定义类型【结构体】详解,【结构体内存怎么计算】 详解 【热门考点】:结构体内存对齐

引言 详细讲解什么是结构体&#xff0c;结构体的运用&#xff0c; 详细介绍了结构体在内存中占几个字节的计算。 【热门考点】&#xff1a;结构体内存对齐 介绍了&#xff1a;结构体传参 一、什么是结构体&#xff1f; 结构是⼀些值的集合&#xff0c;这些值称为成员变量。结构…

Apache DolphinScheduler:一个可视化大数据工作流调度平台

Apache DolphinScheduler&#xff08;海豚调度&#xff09;是一个分布式易扩展的可视化工作流任务调度开源系统&#xff0c;适用于企业级场景&#xff0c;提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。 Apache DolphinScheduler 旨在解决复杂的大数据…

[蓝桥杯 2023 省 B] 飞机降落

[蓝桥杯 2023 省 B] 飞机降落 题目描述 N N N 架飞机准备降落到某个只有一条跑道的机场。其中第 i i i 架飞机在 T i T_{i} Ti​ 时刻到达机场上空&#xff0c;到达时它的剩余油料还可以继续盘旋 D i D_{i} Di​ 个单位时间&#xff0c;即它最早可以于 T i T_{i} Ti​ 时刻…

使用Trae 生成的React版的贪吃蛇

使用Trae 生成的React版的贪吃蛇 首先你想用这个贪吃蛇&#xff0c;你需要先安装Trae Trae 官方地址 他有两种模式 chat builder 我使用的是builder模式,虽然是Alpha.还是可以用。 接下来就是按着需求傻瓜式的操作生成代码 他生成的代码不完全正确&#xff0c;比如没有引入…

rust学习笔记17-异常处理

今天聊聊rust中异常错误处理 1. 基础类型&#xff1a;Result 和 Option&#xff0c;之前判断空指针就用到过 Option<T> 用途&#xff1a;表示值可能存在&#xff08;Some(T)&#xff09;或不存在&#xff08;None&#xff09;&#xff0c;适用于无需错误信息的场景。 f…

Python:单继承方法的重写

继承&#xff1a;让类和类之间转变为父子关系&#xff0c;子类默认继承父类的属性和方法 单继承&#xff1a; class Person:def eat(self):print("eat")def sing(self):print("sing") class Girl(Person):pass#占位符&#xff0c;代码里面类下面不写任何东…

[免费]直接整篇翻译pdf工具-支持多种语言

<闲来没事写篇博客填补中文知识库漏洞> 如题&#xff0c;[免费][本地]工具基于开源仓库&#xff1a; 工具 是python&#xff01;太好了&#xff0c;所以各个平台都可以&#xff0c;我这里基于windows. 1. 先把github代码下载下来&#xff1a; git clone https://githu…

UI设计中的用户反馈机制:提升交互体验的关键

hello宝子们...我们是艾斯视觉擅长ui设计和前端数字孪生、大数据、三维建模、三维动画10年经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩! 在数字化产品泛滥的今天&#xff0c;用户与界面的每一次交互都在无形中塑造着他们对产品的认知。一个…

Hessian 矩阵是什么

Hessian 矩阵是什么 目录 Hessian 矩阵是什么Hessian 矩阵的性质及举例说明**1. 对称性****2. 正定性决定极值类型****特征值为 2(正),因此原点 ( 0 , 0 ) (0, 0) (0,0) 是极小值点。****3. 牛顿法中的应用****4. 特征值与曲率方向****5. 机器学习中的实际意义**一、定义与…

GPU视频编解码:Jetson VPI+multimedia_api视频编解码入门(一)

目录 一.Pipline与工具栈 二.硬件设备概况 三.GPU视频编解码框架 四.VPI编译使用实例 五. jetson_multimedia_api编译使用实例 一.Pipline与工具栈 二.硬件设备概况 三.GPU视频编解码框架 jetson设备目前不支持VPF框架&#xff0c;关于VPF的使用我在下节PC段使用X86进行安…

《深入理解AOP编程:从基础概念到Spring实现》

AOP编程 AOP(Aspect Oriented Programing) 面向切面编程 Spring动态代理开发 以切面为基本单位的程序开发&#xff0c;通过切脉你间的彼此协同&#xff0c;相互调用&#xff0c;完成程序构建 切面切入点额外功能 OOP(Object Oriented Programing)面向对象编程 java 以对象为基本…

Docker 实践与应用举例

一、引言 在当今快速发展的信息技术领域&#xff0c;容器化技术已成为推动软件开发、部署和运维变革的关键力量。Docker 作为容器化技术的领军者&#xff0c;以其高效、便捷、可移植等特性&#xff0c;被广泛应用于各种场景。它能够将应用程序及其依赖项打包成一个独立的容器&…

C++初阶——类和对象(一)

C初阶——类和对象&#xff08;一&#xff09; 一、面向过程和面向对象 1.面向过程 面向过程的程序设计&#xff08;Procedure-Oriented Programming&#xff09;&#xff0c;简称POP&#xff0c;是一种是以程序执行流程为核心的编程范式。它是先分析出解决问题所需要的的步…

Skyeye 云智能制造办公系统 VUE 版本 v3.15.13 发布

Skyeye 云智能制造&#xff0c;采用 Springboot winUI 的低代码平台、移动端采用 UNI-APP。包含 30 多个应用模块、50 多种电子流程&#xff0c;CRM、PM、ERP、MES、ADM、EHR、笔记、知识库、项目、门店、商城、财务、多班次考勤、薪资、招聘、云售后、论坛、公告、问卷、报表…

Obsidian Copilot:打造你的专属 AI 笔记助手

Obsidian Copilot作为一款非常受欢迎的Obsidian插件&#xff0c;不仅极大地提升了用户的笔记管理和信息检索效率&#xff0c;还通过其多样化的AI功能为用户带来了前所未有的便捷体验。本文将详细介绍Obsidian Copilot的核心特点、使用方法及个人体验分享。 核心特点 Obsidian…

制造业数字化转型,汽车装备制造企业数字化转型案例,智能制造数字化传统制造业数字化制造业数字化转型案例

《某制造业企业信息化整体解决方案》PPT展示了一个汽车装备企业的整体信息化解决方案&#xff0c;阐述了该企业的业务特点和现状&#xff0c;主要包括按订单生产、多级计划和产品跟踪等&#xff0c;分析了信息化建设的主要困难&#xff0c;如信息管理手工化、过程数据追溯困难、…

【Film】MovieAgent:自动化电影生成通过多智能体CoT规划

论文概览 自动化电影生成根据剧本概要和角色库创建具有一 致角色、同步字幕和音频的长篇视频。它涉及自动化叙 事规划、场景结构化, 和镜头构图,复制现实世界电影制作的层次推理。 核心贡献 提出MovieAgent,通过多智能体链式思维(CoT)规划实现自动化电影生成。首次探索并…

数据结构——最短路(BFS,Dijkstra,Floyd)

完整版可以看我的最短路问题模版总结_稠密图最短路-CSDN博客 考研数据结构只考BFS,Dijkstra和Floyd 下面代码以Acwing模板题为例 BFS代码 适用类型&#xff1a; 1.单源最短路径 2.无权图 3.不适用于带权图和负权回路图 //Acwing走迷宫bfs #include<bits/stdc.h>usi…