智能化数据安全分类分级实践

在当今数字化浪潮的迅猛推进下,企业和组织正遭遇前所未有的数据安全治理挑战。随着海量数据的不断产生、传输、存储和应用,它们面临着来自黑客攻击、内部人员恶意泄露以及数据误操作等多重安全威胁的侵袭。因此,构建一个健全的数据安全治理体系,确保数据的安全性和合规性,已成为各行各业刻不容缓的重要任务。

数据安全分类分级是数据安全的基础。我们必须认识到,并非所有数据都拥有相同的敏感度和重要性。从财务数据到个人隐私信息,再到知识产权资料,不同业务数据在敏感性和价值上存在着显著的差异。只有精准地识别各类数据的安全等级,才能为它们制定合适的安全防护措施,从而有效保障数据安全。

问题与挑战

当前数据安全分类分级管理主要有两种实现方式:手工打标和基于规则打标。主要对比如下:

从表格的对比数据中,我们可以清晰地识别出手工打标和规则打标在数据安全分类分级管理中的显著问题:

01 手工打标:效率低下,治理成本高昂

在数据安全分类分级的过程中,手工打标依赖于人力对海量数据集进行逐一审查和细致分析,以确定其分类和敏感级别。这种方法效率低下,且需要投入大量人力资源,导致治理成本显著上升。特别是随着数据量的快速增长,手工打标的效率瓶颈愈发突出,难以满足现代企业对快速响应和高效管理的迫切需求。

02 规则打标:规则覆盖不全,大数据处理性能突显

在规则打标,如基于字段名称、注释和内容,根据对应的正则规则进行识别,在实际应用中也面临诸多挑战。一方面,依赖固定规则进行匹配的字段识别方法需要维护大量的规则,如规则覆盖不全则导致识别准确率下降。另一方面,基于字段内容的识别方法在处理大型数据表时,由于数据处理的复杂性和计算量的增加,其性能会显著降低,并消耗大量系统资源。

因此,为了应对这些挑战,我们需要寻找一种更为高效、准确且智能的数据安全分类分级方法,从而满足大数据时代下数据安全治理的要求。

解决措施

本方案核心目标是通过自动化和智能化的手段,优化数据安全分类分级的管理流程,提高效率和准确性。整体思路如下:

图片

首先基于大数据平台已采集的字段信息,字段血缘、字段质量规则、字段安全规则及手工分类分级打标数据,形成字段特征库,为后续应用提供基础数据支撑。

再是构建智能分类分级引擎,包括规则引擎、血缘引擎及AI引擎,在实际应用可根据需求场景,选择对应的分类分级引擎进行执行。

最后,通过制定不同场景下数据安全分类分级的安全防护策略实现数据全生命周期的安全防护。

01 构建高维字段特征库,为AI引擎提供高质量数据

(1)数据采集

从业务系统、数据平台分别抽取字段的基本特征属性(如编码、名称、类型、描述等)、字段血缘、已配置的稽核规则(如取值范围、数据格式、非空、唯一性等)、已配置的安全规则(脱敏、加密策略等)及手工分类分级打标数据。

(2)数据清洗

对已采集字段数据进行清洗及预处理,从而保障数据质量,包括缺失值填充、异常值去除、数据格式转换等。

(3)数据整合

以字段编码作为唯一标识符,对分散在各模块的字段特征和规则进行统一整合,形成高维数据集。对于存在重复编码且规则冲突的字段,经过人工二次确认后,统一录入字段特征库。

02 智能分类分级引擎,实现敏感数据精准高效识别

在字段特征库构建完成后,基于自然语言处理、深度学习技术,构建AI引擎,深入分析字段的特征属性和血缘关系,智能识别出该字段的分类分级规则。在这过程中,基于人工打标数据及对智能识别结果进行修正,不断学习领域专家的知识和经验,持续提高智能识别的准确性和效率。

该算法的核心在于精确比较物理字段的属性与数据元属性的相似性和潜在关联性,并据此生成一个综合的相似性评分。为了实现这一目标,我们综合应用了文本处理以及先进的字符串比较和度量技术。并且对于编码型和文本型属性,我们采取了差异化的处理策略,确保在结构化数据字段的处理中既能实现精确匹配,又能深入理解语义内容。

在应对现实挑战时,我们特别考虑到字段使用的不规范性。在某些情况下,字段的编码、名称或注释在表面上的相似度可能很高,但在不同的数据表或业务场景中,它们所承载的实际意义却可能大相径庭。因此,我们的算法不仅局限于基础的属性比较,还计划纳入更多的业务属性作为相似度评分的考量因素,从而不断提高相似度评分的准确性和实用性。通过这一策略,我们期望能够为用户提供更加精准、可靠的字段分类和推荐服务。

(1)相似度计算:

对从ES中召回的数据元与输入字段进行详细的相似度计算,并基于计算结果对召回的数据进行重新排序。

编码类属性相似度计算,针对输入的编码类属性(如标识符、代码等),采用字面相似度计算方法(如编辑距离、Jaccard相似度等)来计算评分,以评估它们在形式上的接近程度。

文本类属性语义相似度计算,对于输入的文本类属性(如字段描述、注释等),利用自然语言处理(NLP)技术,如词向量、BERT等模型,来计算语义相似度评分,从而捕获它们在含义上的相似性。

(2)综合评分:

综合考虑不同匹配维度(如编码相似度、语义相似度等)的重要性及其对最终匹配准确性的贡献,设计合理的权重公式和参数,对各维度评分进行加权计算,得出一个综合的相似度评分。此外,根据业务反馈和实际应用效果,持续优化和调整权重参数,以确保相似度计算的准确性和实用性。

数据元共包含5种可用来进行相似度匹配的特征属性,这5种属性按照类型可划分成编码类和文本类,如下所示:

综合评分通过各属性的相似度加权计算得出。

综合评分计算公式如下:

图片

其中,权重系数,相加和为1,并可以根据用户实际反馈的情况进行自动调整和优化。

03 全方位安全防护技术,保障数据全生命周期安全

(1)全面的安全防护技术

为保护数据安全,提供全面的数据安全防护技术,包括数据加密、数据脱敏、数据水印、数据库安全网关等。

数据加密,支持DES、AES、3DES、RSA等主流加密算法及SM2、SM4国密加密算法。

数据脱敏,系统内置15种常用脱敏算法,支持动态脱敏、静态脱敏,并可自定义配置脱敏规则及脱敏算法。

数据水印,支持网页、excel、pdf等添加水印,并可灵活配置水印模板。

数据库安全网关,支持无侵入方式,部署于数据访问的客户端和数据存储之间,通过识别访问者身份、位置、行为等信息,提供统一的、细粒度的访问控制能力。

(2)全场景的安全防护策略

围绕数据采集、传输、存储、处理、共享、销毁全生命周期,提供全场景的安全防护策略。并且针对不同的使用场景,同一敏感等级数据支持不同的安全防护策略配置。如针对用户名、手机号等个人敏感数据支持在存储时配置加密策略,在数据访问时配置脱敏策略。

应用场景

以下是两种典型业务场景的应用场景:

场景1:ods层表分类分级识别及安全防护

在ods层,由于表通常是数据的初始节点,字段血缘关系推荐在此层级并不适用。然而,ods层可能存在大量字段名称和描述高度相似的字段,它们实际上存储的是相同类型的数据。为了提升数据安全分类分级的效率,我们可以采用AI引擎进行分类分级,通过比较字段的元数据、名称、描述等信息,自动推荐相似的分类分级规则。

场景2:dwd层表分类分级识别及安全防护

当数据从ods层流转到dwd层时,字段的血缘关系成为了数据变化过程的重要参考。dwd层的表通常依赖于ods层的表,通过血缘关系可以清晰地看到数据是如何被加工、转换和组合的。在这种情况下,基于字段血缘关系的推荐方法能够更准确地描述数据的变化过程,其推荐结果也更具可信度。因此,在ods层完成分类分级识别后,我们可以利用字段血缘关系推荐来提升dwd层数据安全分类分级的效率。

基于以上两种场景,数据安全分类分级及安全防护的落地实施可以遵循以下关键步骤:

(1)分类分级任务配置

通过选择需要执行分类分级的数据目录(ods、dwd等),配置合适的智能分类引擎(血缘引擎或AI引擎)及任务执行调度周期,完成分类分级任务配置。

图片

(2)分类分级任务执行流程

根据配置的任务,系统自动执行分类分级任务。在ods层,使用AI引擎扫描,对比字段的元数据、名称、描述等信息,进行相似度计算和推荐。在dwd层及以上层级,使用血缘引擎扫描,递归查询血缘关系并推荐合适的分类分级规则。

(3)分类分级结果确认

任务执行完后,为保障数据准确性,提供手动调整和优化分类分级结果工具,允许用户查看、验证及修正分类分级结果,并将确认后的结果数据保存到数据库;同时将修订过的数据进行打标并记录,以便后续提供给AI引擎进行算法或程序优化,进一步提升分类分级准确性。

图片

(4)安全防护策略配置

基于分类分级结果,提供向导式、便捷的安全防护策略配置,系统内置各类加密、脱敏算法。通过选择需要保护的敏感字段(可批量选择),配置相应的加密、脱敏防护策略,完成数据安全防护策略配置。

图片

图片

通过以上流程,我们可以实现数据安全分类分级的精准、高效识别及安全防护。

应用成效

基于智能分类分级引擎与传统手工打标、规则打标对比,具备显著优势,具体如下:

首先,它极大地提升了数据安全分类分级的效率。借助自动化和智能化的手段,智能分类分级引擎能够迅速且准确地完成数据安全分类与分级工作,从而显著减少了人工操作的时间和人力成本。

其次,优化了资源配置。与传统的数据安全分类分级方法相比,基于智能分类分级引擎,无需对字段实例进行大量的扫描计算,从而大幅降低了计算资源的消耗,为企业节省了运营成本。

最后,显著增强了数据的安全性与合规性。智能分类分级引擎能够精准地识别出含有敏感信息的字段,如个人身份信息、金融交易数据等,并对其进行适当的分类和有效保护,保护了企业的数据安全,降低了因数据泄露或滥用而引发的法律风险。

展望未来,通过引入智能化技术进行数据治理的前景将更加广阔。除了智能化数据安全分类分级外,它还可以广泛应用于质量规则自动推荐、数据模型优化、数据模型生命周期管理优化等多个领域,为企业数据治理提供更加全面和深入的支持,助力企业在数字化浪潮中稳健前行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/49403.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【快速逆向四/无过程/有源码】浙江工商职业技术学院 统一身份认证

逆向日期:2024.07.23 使用工具:Node.js 加密方法:RSAUtils 文章全程已做去敏处理!!! 【需要做的可联系我】 AES解密处理(直接解密即可)(crypto-js.js 标准算法&#xf…

Unity ShaderLab基础

[原文1] [参考2] 一 基础知识 1. 1 着色器语言分类: 语言说明HLSL基于 OpenGL 的 OpenGL Shading LanguageGLSL基于 DirectX 的 High Level Shading LanguageCGNVIDIA 公司的 C for GraphicShader LabUnity封装了CG,HLSL,GLSL的Unity专用着色器语言,具有跨平台,图形化编程,便…

Modbus转BACnet/IP网关BA100-配硬件说明

在现代自动化系统中,不同设备和系统之间的通信至关重要,Modbus和BACnet/IP协议虽然各有优势,但它们之间的直接通信存在障碍。钡铼Modbus转BACnet/IP网关作为连接这两种协议的桥梁,允许不同系统之间的无缝数据交换。 一、Modbus转…

Ubuntu22.04安装X11vnc方法

一、问题描述 客户想使用Ubuntu图形化功能,需要远程去操作界面 二、安装方法如下 通常情况,ubuntu不允许root用户运行GUI程序。因此,我们创建普通用户进行安装配置X11vnc服务 1.安装x11vnc程序包 sudo apt-get update sudo apt-get install -y x11v…

内网隧道——HTTP隧道

文章目录 一、ReGeorg二、Neo-reGeorg三、Pivotnacci 实验网络拓扑如下: 攻击机kali IP:192.168.111.0 跳板机win7 IP:192.168.111.128,192.168.52.143 靶机win server 2008 IP:192.168.52.138 攻击机与Web服务器彼此之…

pdf压缩在线免费 pdf压缩在线免费网页版 在线pdf压缩在线免费 pdf压缩工具在线免费

在数字化时代,pdf文件已经成为我们工作、学习和生活中的重要组成部分。然而,体积庞大的pdf文件往往给我们的存储空间、传输速度带来不小的压力。本文将为您揭秘几种简单有效的pdf文件压缩方法,让您轻松应对文件体积过大带来的困扰。 方法一、…

PLC通过IGT-SER系列智能网关快速实现WebService接口调用案例

IGT-SER系列智能网关支持PLC设备数据对接到各种系统平台,包括SQL数据库,以及MQTT、HTTP协议的数据服务端;通过其边缘计算功能和脚本生成的工具软件,非常方便快速实现PLC、智能仪表与WebService服务端通信。 本文是通过智能网关读取…

如何切换网络IP地址?IP切换的应用与方法

随着互联网的发展和普及,我们日常生活中的各种操作和通讯越来越依赖互联网。互联网上存在的一些问题和限制使得更换IP地址成为必要的步骤。下面我们将探讨在互联网业务中,需要更换IP地址的原因与方法。 一、IP轮换的应用 解决访问限制:解决访…

Intellij IDEA多模块分组 实现move to group

新版本idea,没有了move to group的功能,导致模块很多的时候不能分组。2018版本有。 这个分组是虚拟的,不会在磁盘中实际存在。 要实现这个功能,只需要改modules.xml即可。 步骤 1. 找到配置文件 .idea目录下的moudules.xml 2.…

新增ClamAV病毒扫描功能、支持Java和Go运行环境,1Panel开源面板v1.10.12版本发布

2024年7月19日,现代化、开源的Linux服务器运维管理面板1Panel正式发布了v1.10.12版本。 在这一版本中,1Panel新增了多项实用功能。社区版方面,1Panel新增ClamAV病毒扫描功能、支持Java和Go运行环境,同时1Panel还新增了文件编辑器…

服务器数据恢复—Isilon存储集群节点误删除的数据恢复案例

Isilon存储结构: Isilon存储使用的是分布式文件系统OneFS。在Isilon存储集群里面每个节点均为单一的OneFS文件系统,所以Isilon存储在进行横向扩展的同时不会影响数据的正常使用。Isilon存储集群所有节点提供相同的功能,节点与节点之间没有主备…

怎样将对象转换为包含键值对的对象数组?然后又将数组转换为对象?

​ const formData {location: Park,address: 123 Main St,latitude: 37.7749,longitude: -122.4194 };​1、怎样把这个对象转化为一个数组? 2、然后又怎样把转化后的数组再转化回来? 3、怎样将这两个方法单独封装成函数? 方法 1: 将对象…

基于FPGA的以太网设计(3)----详解各类xMII接口

1、什么是xMII接口 MII (Media Independent Interface)接口,即介质无关接口或称为媒体独立接口,它是IEEE-802.3定义的以太网行业标准。“介质无关” 表明在不对MAC硬件重新设计或替换的情况下,任何类型的PHY设备都可以正常工作。 MII接口是MAC和PHY之间的通信接口,MAC产生…

微软的Edge浏览器如何设置兼容模式

微软的Edge浏览器如何设置兼容模式? Microsoft Edge 在浏览部分网站的时候,会被标记为不兼容,会有此网站需要Internet Explorer的提示,虽然可以手动点击在 Microsoft Edge 中继续浏览,但是操作起来相对复杂&#xff0c…

基于内容的音乐推荐网站/基于ssm的音乐推荐系统/基于协同过滤推荐的音乐网站/基于vue的音乐平台

获取源码联系方式请查看文末🍅 摘 要 随着信息化时代的到来,系统管理都趋向于智能化、系统化,音乐推荐网站也不例外,但目前国内的有些公司仍然都使用人工管理,公司规模越来越大,同时信息量也越来越庞大&…

耳机、音响UWB传输数据模组,飞睿智能低延迟、高速率超宽带uwb模块技术音频应用

在数字化浪潮席卷全球的今天,无线通信技术日新月异,其中超宽带(Ultra-Wideband,简称UWB)技术以其独特的优势,正逐步成为无线传输领域的新星。本文将深入探讨飞睿智能UWB传输数据模组在音频应用中的创新应用…

Excel的常用函数公式

Excel的常见函数公式 1、SUM函数 sum函数:主要是用于求和。 格式:SUM(数值1…数值n) 例如:求算学生成绩的综合 sum(B3:D3)、表示求张三同学成绩的总分 只算两科成绩的总分: 注意:在函数公式的…

GraphRAG + GPT-4o mini 低成本构建 AI 图谱知识库

更好的效果,更低的价格,听起来是不是像梦呓? 限制 首先,让我们来介绍一个词:RAG。 简单来说,RAG(Retrieval-Augmented Generation,检索增强生成) 的工作原理是将大型文档…

探索PyPDF2:Python中的PDF处理大师

探索PyPDF2:Python中的PDF处理大师 1. 背景介绍 在数字化时代,PDF文件因其跨平台的兼容性和内容的稳定性而广受欢迎。然而,处理PDF文件,如合并、分割、提取文本等,往往需要专门的工具。这就是PyPDF2库的用武之地。PyP…