在当今数字化浪潮的迅猛推进下,企业和组织正遭遇前所未有的数据安全治理挑战。随着海量数据的不断产生、传输、存储和应用,它们面临着来自黑客攻击、内部人员恶意泄露以及数据误操作等多重安全威胁的侵袭。因此,构建一个健全的数据安全治理体系,确保数据的安全性和合规性,已成为各行各业刻不容缓的重要任务。
数据安全分类分级是数据安全的基础。我们必须认识到,并非所有数据都拥有相同的敏感度和重要性。从财务数据到个人隐私信息,再到知识产权资料,不同业务数据在敏感性和价值上存在着显著的差异。只有精准地识别各类数据的安全等级,才能为它们制定合适的安全防护措施,从而有效保障数据安全。
问题与挑战
当前数据安全分类分级管理主要有两种实现方式:手工打标和基于规则打标。主要对比如下:
从表格的对比数据中,我们可以清晰地识别出手工打标和规则打标在数据安全分类分级管理中的显著问题:
01 手工打标:效率低下,治理成本高昂
在数据安全分类分级的过程中,手工打标依赖于人力对海量数据集进行逐一审查和细致分析,以确定其分类和敏感级别。这种方法效率低下,且需要投入大量人力资源,导致治理成本显著上升。特别是随着数据量的快速增长,手工打标的效率瓶颈愈发突出,难以满足现代企业对快速响应和高效管理的迫切需求。
02 规则打标:规则覆盖不全,大数据处理性能突显
在规则打标,如基于字段名称、注释和内容,根据对应的正则规则进行识别,在实际应用中也面临诸多挑战。一方面,依赖固定规则进行匹配的字段识别方法需要维护大量的规则,如规则覆盖不全则导致识别准确率下降。另一方面,基于字段内容的识别方法在处理大型数据表时,由于数据处理的复杂性和计算量的增加,其性能会显著降低,并消耗大量系统资源。
因此,为了应对这些挑战,我们需要寻找一种更为高效、准确且智能的数据安全分类分级方法,从而满足大数据时代下数据安全治理的要求。
解决措施
本方案核心目标是通过自动化和智能化的手段,优化数据安全分类分级的管理流程,提高效率和准确性。整体思路如下:
首先基于大数据平台已采集的字段信息,字段血缘、字段质量规则、字段安全规则及手工分类分级打标数据,形成字段特征库,为后续应用提供基础数据支撑。
再是构建智能分类分级引擎,包括规则引擎、血缘引擎及AI引擎,在实际应用可根据需求场景,选择对应的分类分级引擎进行执行。
最后,通过制定不同场景下数据安全分类分级的安全防护策略实现数据全生命周期的安全防护。
01 构建高维字段特征库,为AI引擎提供高质量数据
(1)数据采集
从业务系统、数据平台分别抽取字段的基本特征属性(如编码、名称、类型、描述等)、字段血缘、已配置的稽核规则(如取值范围、数据格式、非空、唯一性等)、已配置的安全规则(脱敏、加密策略等)及手工分类分级打标数据。
(2)数据清洗
对已采集字段数据进行清洗及预处理,从而保障数据质量,包括缺失值填充、异常值去除、数据格式转换等。
(3)数据整合
以字段编码作为唯一标识符,对分散在各模块的字段特征和规则进行统一整合,形成高维数据集。对于存在重复编码且规则冲突的字段,经过人工二次确认后,统一录入字段特征库。
02 智能分类分级引擎,实现敏感数据精准高效识别
在字段特征库构建完成后,基于自然语言处理、深度学习技术,构建AI引擎,深入分析字段的特征属性和血缘关系,智能识别出该字段的分类分级规则。在这过程中,基于人工打标数据及对智能识别结果进行修正,不断学习领域专家的知识和经验,持续提高智能识别的准确性和效率。
该算法的核心在于精确比较物理字段的属性与数据元属性的相似性和潜在关联性,并据此生成一个综合的相似性评分。为了实现这一目标,我们综合应用了文本处理以及先进的字符串比较和度量技术。并且对于编码型和文本型属性,我们采取了差异化的处理策略,确保在结构化数据字段的处理中既能实现精确匹配,又能深入理解语义内容。
在应对现实挑战时,我们特别考虑到字段使用的不规范性。在某些情况下,字段的编码、名称或注释在表面上的相似度可能很高,但在不同的数据表或业务场景中,它们所承载的实际意义却可能大相径庭。因此,我们的算法不仅局限于基础的属性比较,还计划纳入更多的业务属性作为相似度评分的考量因素,从而不断提高相似度评分的准确性和实用性。通过这一策略,我们期望能够为用户提供更加精准、可靠的字段分类和推荐服务。
(1)相似度计算:
对从ES中召回的数据元与输入字段进行详细的相似度计算,并基于计算结果对召回的数据进行重新排序。
编码类属性相似度计算,针对输入的编码类属性(如标识符、代码等),采用字面相似度计算方法(如编辑距离、Jaccard相似度等)来计算评分,以评估它们在形式上的接近程度。
文本类属性语义相似度计算,对于输入的文本类属性(如字段描述、注释等),利用自然语言处理(NLP)技术,如词向量、BERT等模型,来计算语义相似度评分,从而捕获它们在含义上的相似性。
(2)综合评分:
综合考虑不同匹配维度(如编码相似度、语义相似度等)的重要性及其对最终匹配准确性的贡献,设计合理的权重公式和参数,对各维度评分进行加权计算,得出一个综合的相似度评分。此外,根据业务反馈和实际应用效果,持续优化和调整权重参数,以确保相似度计算的准确性和实用性。
数据元共包含5种可用来进行相似度匹配的特征属性,这5种属性按照类型可划分成编码类和文本类,如下所示:
综合评分通过各属性的相似度加权计算得出。
综合评分计算公式如下:
其中,权重系数,相加和为1,并可以根据用户实际反馈的情况进行自动调整和优化。
03 全方位安全防护技术,保障数据全生命周期安全
(1)全面的安全防护技术
为保护数据安全,提供全面的数据安全防护技术,包括数据加密、数据脱敏、数据水印、数据库安全网关等。
数据加密,支持DES、AES、3DES、RSA等主流加密算法及SM2、SM4国密加密算法。
数据脱敏,系统内置15种常用脱敏算法,支持动态脱敏、静态脱敏,并可自定义配置脱敏规则及脱敏算法。
数据水印,支持网页、excel、pdf等添加水印,并可灵活配置水印模板。
数据库安全网关,支持无侵入方式,部署于数据访问的客户端和数据存储之间,通过识别访问者身份、位置、行为等信息,提供统一的、细粒度的访问控制能力。
(2)全场景的安全防护策略
围绕数据采集、传输、存储、处理、共享、销毁全生命周期,提供全场景的安全防护策略。并且针对不同的使用场景,同一敏感等级数据支持不同的安全防护策略配置。如针对用户名、手机号等个人敏感数据支持在存储时配置加密策略,在数据访问时配置脱敏策略。
应用场景
以下是两种典型业务场景的应用场景:
场景1:ods层表分类分级识别及安全防护
在ods层,由于表通常是数据的初始节点,字段血缘关系推荐在此层级并不适用。然而,ods层可能存在大量字段名称和描述高度相似的字段,它们实际上存储的是相同类型的数据。为了提升数据安全分类分级的效率,我们可以采用AI引擎进行分类分级,通过比较字段的元数据、名称、描述等信息,自动推荐相似的分类分级规则。
场景2:dwd层表分类分级识别及安全防护
当数据从ods层流转到dwd层时,字段的血缘关系成为了数据变化过程的重要参考。dwd层的表通常依赖于ods层的表,通过血缘关系可以清晰地看到数据是如何被加工、转换和组合的。在这种情况下,基于字段血缘关系的推荐方法能够更准确地描述数据的变化过程,其推荐结果也更具可信度。因此,在ods层完成分类分级识别后,我们可以利用字段血缘关系推荐来提升dwd层数据安全分类分级的效率。
基于以上两种场景,数据安全分类分级及安全防护的落地实施可以遵循以下关键步骤:
(1)分类分级任务配置
通过选择需要执行分类分级的数据目录(ods、dwd等),配置合适的智能分类引擎(血缘引擎或AI引擎)及任务执行调度周期,完成分类分级任务配置。
(2)分类分级任务执行流程
根据配置的任务,系统自动执行分类分级任务。在ods层,使用AI引擎扫描,对比字段的元数据、名称、描述等信息,进行相似度计算和推荐。在dwd层及以上层级,使用血缘引擎扫描,递归查询血缘关系并推荐合适的分类分级规则。
(3)分类分级结果确认
任务执行完后,为保障数据准确性,提供手动调整和优化分类分级结果工具,允许用户查看、验证及修正分类分级结果,并将确认后的结果数据保存到数据库;同时将修订过的数据进行打标并记录,以便后续提供给AI引擎进行算法或程序优化,进一步提升分类分级准确性。
(4)安全防护策略配置
基于分类分级结果,提供向导式、便捷的安全防护策略配置,系统内置各类加密、脱敏算法。通过选择需要保护的敏感字段(可批量选择),配置相应的加密、脱敏防护策略,完成数据安全防护策略配置。
通过以上流程,我们可以实现数据安全分类分级的精准、高效识别及安全防护。
应用成效
基于智能分类分级引擎与传统手工打标、规则打标对比,具备显著优势,具体如下:
首先,它极大地提升了数据安全分类分级的效率。借助自动化和智能化的手段,智能分类分级引擎能够迅速且准确地完成数据安全分类与分级工作,从而显著减少了人工操作的时间和人力成本。
其次,优化了资源配置。与传统的数据安全分类分级方法相比,基于智能分类分级引擎,无需对字段实例进行大量的扫描计算,从而大幅降低了计算资源的消耗,为企业节省了运营成本。
最后,显著增强了数据的安全性与合规性。智能分类分级引擎能够精准地识别出含有敏感信息的字段,如个人身份信息、金融交易数据等,并对其进行适当的分类和有效保护,保护了企业的数据安全,降低了因数据泄露或滥用而引发的法律风险。
展望未来,通过引入智能化技术进行数据治理的前景将更加广阔。除了智能化数据安全分类分级外,它还可以广泛应用于质量规则自动推荐、数据模型优化、数据模型生命周期管理优化等多个领域,为企业数据治理提供更加全面和深入的支持,助力企业在数字化浪潮中稳健前行。