思维导图
9.1 引言
文件和内容管理是指针对存储在关系型数据库之外的数据和信息的采集、存储、访问和使用过程的管理。它的重点在于保持文件和其他非结构化或半结构化信息的完整性,并使这些信息能够被访问。文件和非结构化内容也应是安全且高质量的。 确保文件和内容管理的安全性和高质量,需要可靠的架构和管理良好的元数据。
9.1.1 业务驱动因素
文件和内容管理的主要业务驱动因素包括法规遵从性要求、诉讼响应能力和电子取证请求能力以及业务连续性要求。
法律法规要求组织保留某些活动的档案。
电子取证是查找可能作为法律诉讼证据的电子档案的过程。
9.1.2 目标和原则
实施文件和内容管理最佳实践的目标,包括:
- 1)确保能够高速有效地采集和使用非结构化的数据和信息。
- 2)确保结构化和非结构化数据之间的整合能力。
- 3)遵守法律义务并达到客户预期。
文件和内容管理遵循以下指导原则:
- 组织中的每个人都应该在保护组织的未来方面发挥作用。每个人都必须按照既定的制度和程序来创建、使用、检索和处置档案。
- 档案和内容处理方面的专家应充分参与制度和规划的制定。不同的行业和法律管辖区之间,监管实践可能会有很大的差异。
ARMA国际(非营利性的档案和信息管理专业协会)在2009年发布了一套被普遍接受的档案保存指导原则:
- 问责原则(Accountability)。组织应指派适当的高级管理人员,采用制度和流程来指导员工,并确保计划的可审计性。
- 完整原则(Integrity)。建立信息治理规划,使组织创建或管理的档案和信息具有合理性以及适当的真实性和可靠性保证。
- 保护原则(Protection)。建立信息治理规划,确保对个人信息或其他需要保护的信息提供合理的保护。
- 遵从原则(Compliance)。建立信息治理规划,遵从适用的法律法规和其他有约束力的机构及组织的制度要求。
- 可用原则(Availability)。组织应确保以及时、高效和准确检索其信息的原则来维护其信息。
- 保留原则(Retention)。组织的信息应保留适当的时间,并考虑所有运营、法律、监管和财政以及其他所有相关约束的要求。
- 处置原则(Disposition)。组织应根据其制度、适用的法律法规以及其他有约束力的机构要求,提供安全和适当的信息处置。
- 透明原则(Transparency)。组织应以工作人员和利益相关方可以理解的方式记录其制度、流程和活动,包括其信息治理规划。
9.1.3 基本概念
1、内容
(1)内容管理
(2)内容元数据
(3)内容建模
内容建模有两个层次。第一个是信息产品级别,它会产出一个像网站一样的实际可交付成果;第二个是组件级别,它进一步详细说明了构成信息产品模型的元素。
(4)内容分发方法:推式、拉式、交互式
2、受控词表
(1)词汇表管理
控制词汇表的主要目的是实现采用一致并便于检索的方式描述内容对象”。词汇表管理是针对任何给定的词汇进行定义、寻源、导入和维护的过程。实现词汇表管理的关键问题集中在用途、消费者、标准和维护4 个方面。
(2)词汇表视图和微控制词汇表
(3)术语和选择列表
(4)术语管理
术语管理包括在受控词汇表中建立术语之间的关系。关系的类型可以分为以下3种:
- 等价术语关系(Equivalent Term Relationship)。这种关系同时使用多个术语而不是进行交叉引用术语。这是IT中最常用的术语映射功能,表示来自一个系统或词汇表的术语或值与另一个系统或词汇表相同,因此集成技术可以执行它们的映射关系并标准化。
- 层次化关系(Hierarchical Relationship)。它描述广义(一般) 到狭义(特定)或整体-部分的关系。
- 关联关系(Related Term Relationship)。与受控词表中的另一个术语相关联,但这种关联不是层次化的。
(5)同义词环和规范表
同义词环(Synonym Ring)是指一组含义大致相同的术语。
规范表(Authority List)是描述性术语的受控词汇表,旨在促进特定领域或范围内的信息检索。
(6)分类法
分类法(Taxonomies)是指任何分类或受控词表的总称。分类法可以有多种不同的结构:
- 扁平分类法(Flat Taxonomy)。在受控类别集之间没有关系, 所有类别都是平等的。这类似于列表。例如,一个包含多个国家的列表。
- 层次分类法(Hierarchical Taxonomy)。它是一种树结构,其中节点通过规则相互关联。层次结构至少具有两个级别并且是双向的。向上移动层级会扩展类别;向下移动会细化类别。一个能够说明这一点的例子是地理信息,从所属大陆直到详细的街道地址。
- 多重层级结构(Polyhierarchy)。它是具有多个节点关系规则的树状结构。子节点可能有多个父节点,父节点也可以共用一个祖父节点。因此,遍历路径可能会很复杂,所以必须注意避免潜在的无效遍 历:从与父节点相关的节点开始向上遍历而非祖父节点。然而,复杂的多重层级结构可能更适合面分类法。
- 面分类法(Facet Taxonomy)。它指的是每个节点与中心节点相关联,其形状看起来像星形图。每个面是中心对象的一个属性。这里的例子是元数据,其中每个属性(创建者、标题、访问权限、关键字、 版本等)是内容对象的一个面。
- 网状分类法(Network Taxonomy)。既可用于层级结构,也可用于刻面结构。网状分类中的任何两个节点都基于它们的关联来建立链接,其中一个例子就是推荐引擎(如果你喜欢那个,你可能也会喜欢这个);另一个例子是主题词表。
(7)分类方案和打标签
分类方案(Classification Schemes)是代表受控词表的代码。这些方案通常是分层的,可能有与之相关的词汇。
大众分类法是通过社交标签对在线内容术语和名称分类的方案。个人用户和团体使用它们来注释和分类数字内容。它们通常没有层次结构或优选术语。
(8)主题词表
主题词表(Thesauri)又称叙词表,是一种用于内容检索的受控词表。它结合了同义词列表和分类方案的特征。主题词表提供相关的每个术语及其与其他术语的关系信息。关系要么是层次关系(父/子或广义/ 狭义),要么是关联关系或等价关系。在所有的语境场景中,同义词必须是可接受的等价词。主题词表还可能包括定义、引文等。
主题词表可用于梳理非结构化的内容,揭示来自不同介质的内容之间的关系,改进网站导航并优化搜索。
(9)本体
本体(Ontology)是一种分类法,它代表一套概念和它们在某个领域内概念之间的关联。本体提供语义网络中基本的知识表示,用于语义网络应用程序之间的信息交换。
本体描述类(概念)、个体(实例)、属性、关系和事件。
分类法(如数据模型)和本体之间存在两个主要区别:
- 分类法为给定的概念区域提供数据内容分类。数据模型专门调用属性所属的实体以及该属性的有效性。但是,在本体中,实体、属性和内容概念可以完全混合。差异是通过元数据或其他关系来识别的。
- 在分类法或数据模型中,定义是已知的,别无其他,称为封闭世界假设。在本体中,基于现存的关系可以推断出可能的关系。因此,未明确声明的内容也可能是真的,称之为开放世界假设。
3、文件和档案
文件(Document)是包含任务说明,对执行任务或功能的方式和时间的要求以及任务执行和决策的日志等的电子或纸质对象。文件可用于交流并分享信息和知识。程序、协议、方法和说明书都属于文件。
只有部分文件才能称为档案(Record)。档案可用于证明所做的决策和所采取的行动是符合程序的;可作为组织业务活动和法规遵从的证据。档案通常是由人来创建的,但仪器和监控设备也可以提供数据来自动生成档案。
(1)文件管理
管理文件和档案的生命周期包括:
- 编目。识别已有的和新建的文件/档案。
- 制度。文件/档案制度的创建、批准和实施,包括文件/档案的保管制度。
- 分类。文件/档案的分类。
- 存储。纸质和电子文件/档案的短期和长期存储。
- 检索和流转。在遵守制度、安全、控制标准和法律的情况下,允许文件/档案的访问和流通。
- 保存和处置。在遵守组织需求、规章和法规的情况下,对文件/档案进行归档和销毁。
(2)档案管理
档案管理(Records Management)是文件管理的一部分,管理档案有一些特殊的要求。档案管理包括整个档案的生命周期:从档案的创建或接收到处理、分发、组织和检索,再到处置。档案可以是物理的(如文件、备忘录、合同、报告或缩微胶片)、电子的(如电子邮件内容、附件和即时消息),也可以是网站上的内容及各种介质和硬件上的文件,还可以是各种数据库中采集的数据,甚至是混合档案,如光圈卡(带有嵌入细节或支持材料的缩微胶片窗口的纸质记录)是把各种格式 组合在一起。重要档案(Vital Record)是在发生灾难时恢复组织运营所必需的档案。
精心管理的档案具有以下特点:
- 内容。内容必须准确、完整和真实。
- 背景。关于档案的创建者、创建日期或与其他档案关系的描述性信息(元数据)应该在创建档案时收集、组织并维护。
- 及时性。档案应该在事件、行为或决定发生后立即创建。
- 永久性。一旦成为档案,则在档案的法定保存期内不能改变其内容。
- 结构。档案内容的外观和排版需要清晰,它们应被记录在正确的表格或模板上。内容应清晰易读,对术语的使用应始终保持如一。
(3)数字资产管理
数字资产管理(Digital Asset Management,DAM)和文件管理流程相似,它专注于存储、跟踪和使用视频、徽标、照片等富媒体文件。
4、数据地图
数据地图(Data Map)是所有ESI数据源、应用程序和IT环境的清单,其中包括应用程序所有者、保管人、相关地理位置和数据类型等信息。
5、电子取证
6、信息架构
信息架构是为信息体或内容创建的结构。它包括以下组件:
- 受控词表。
- 分类法和本体。
- 元数据映射。
- 搜索功能规格。
- 用例。
- 用户流。
7、搜索引擎
8、语义模型
语义建模(Semantic Modeling)是一种知识建模,描述一系列概念网络(有关的想法或主题)以及它们之间的关系。结合到信息系统中,语义模型允许用户能够以非技术的方式提出信息问题。
9、语义搜索
语义搜索(Semantic Search)侧重于语义和语境而非预先设定的关键字。语义搜索引擎可以使用人工智能基于单词及其语境来识别查询匹配。这样的搜索引擎可以根据位置、意图、单词变体、同义词和概念匹配来进行分析。
10、非结构化数据
非结构化数据有多种电子格式:文字处理文件、电子邮件、社交媒体、聊天室、平面文件、电子表格、XML文件、事务性消息、报告、 图形、数字图像、缩微胶片、视频和音频。纸质文件中也存在大量非结构化数据。
数据管理的基本原则既适用于结构化数据也适用于非结构化数据。非结构化数据是宝贵的企业资产。存储、完整性、安全性、内容质量、 访问和有效使用对非结构化数据的管理都具有指导作用。非结构化数据需要数据治理、体系架构、安全元数据和数据质量。
11、工作流
应该通过一个工作流(Workflow)管理内容开发,以确保内容按时创建并获得适当的批准。工作流组件可以包括创建、处理、路由、规则、管理、安全性、电子签名、截止日期、升级(如果出现问题)、报告和交付等过程。
9.2 活动
文件管理实践涉及文件生命周期的规划——从文件的创建或接收文件后的分发、存储、检索、归档和潜在的销毁。规划包括开发分类/索引系统和分类法,以实现文件的存储和检索。重要的是,生命周期规划中需要为档案建立具体的制度。
9.2.1 规划生命周期的管理
1、规划档案管理
2、制定内容策略
9.2.2 创建内容处理制度
制定的制度中需要描述行为的原则、方向和指南等信息,以帮助员工理解并遵守文件和档案管理的要求。 大多数文件管理制度都包括以下相关的内容:
- 审计的范围和合规性。
- 重要档案的鉴定和保护
- 保留档案的目的和保管期限表。
- 如何响应信息保留命令(特殊保护令),即针对已过保留期的诉讼信息要求。
- 本地和异地存储档案的要求。
- 硬盘驱动器和共享网络驱动器的使用和维护。
- 对电子邮件管理,从内容管理的角度进行处理。
- 合理的档案销毁方法,如预先批准的供应商和销毁证明的收据。
(1)社交媒体制度
(2)设备访问制度
(3)处理敏感数据
(4)应对诉讼
9.2.3 定义内容信息架构
用户必须以系统检索机制能够理解的形式提交他们的需求,以便从这些系统中获取信息。同样, 需要一种检索机制,以支持快速识别匹配的数据和信息格式描述/索引文件、结构化和非结构化数据的目录。
9.2.4 实施的生命周期管理
1、获取档案和内容
获取内容是管理内容的第一步
2、管理版本的控制
ANSI 859标准基于数据的重要性以及数据损坏或不可用时可能造成的损害,将数据控制分为3个等级:正式、修订和托管。
- 正式控制(Formal Control)。需要正式的变更启动、对影响的全面评估、变更管理机构的决策以及给利益相关方一份全面执行和验证的状态报告。
- 修订控制(Revision Control)。没那么正式,在需要变更时通知利益相关方并升级版本。
- 托管控制(Custody Control)。最不正式,仅需要安全存储和一套检索方法。
3、备份和恢复
文件/档案管理系统需要包含在组织的整体企业备份和恢复活动中,包括业务连续性和灾难恢复计划。重要档案规划使组织能够访问在灾难期间开展业务和随后恢复正常业务所需的档案。必须确定哪些是重要档案,并制定和维护其保护和恢复计划。档案经理应参与风险缓解和业务连续性规划,以确保这些活动能够保证重要档案的安全。
4、管理保管和处置
有效的文件/档案管理需要有明确的制度和过程,特别是在保管和处置档案方面。保管和处置制度规定用于运营、法律、财政或历史价值的文件时间范围,规定何时可以将不常用的文件转移到二级存储设施,如异地存储。这些制度明确了合规性流程以及处理文件的方法和期限表。在制定保管期限表时,必须要考虑法律和监管要求。
无附加值的信息应该从组织的资产中移除并处理掉,以避免浪费实体和电子空间以及与其维护相关的成本。超过法定时限保留档案也是存在风险的,在诉讼时仍能发现这些信息。然而,许多组织并没有优先删除无附加值的信息,这是因为:
- 制度不适用。
- 对某一个人来说是无附加值信息,但对另一个人来说却是有价值的信息。
- 无法预见当前的无附加值实体和/或电子档案未来可能的需求。
- 对档案管理的不认可。
- 无法决定删除哪些档案。
- 做决定与移除实体和电子档案的感知成本。
- 电子空间很便宜,购买更多的空间比归档和移除过程更容易。
5、审计文件/档案
审计通常包括以下步骤:
- 定义组织驱动因素,并确定“为什么”要进行文件/记录管理的利益相关方(Why)。
- 一旦确定了检查/测量的内容和要使用的工具(如标准、基准、访问调查),就开始收集相关数据(How)。
- 报告结果。
- 制订下一步的行动计划和时间表。
9.2.5 发布和分发内容
1、开放访问、搜索和检索
2、通过可接受的渠道分发
9.3 工具
9.3.1 企业内容管理系统
1、文件管理
一些文件管理系统拥有工作流模块,可以支持不同的工作流,如:
1)手动工作流,指示用户将文件发往何处。
2)基于规则的工作流,通过制定规则指示文件在组织内的流向。
3)动态规则,允许基于内容的不同工作流。
(1)数字资产管理
因为所需的功能相似,所以许多文件管理系统会包含数字资产管理 (Digital Asset Management)功能,如对音频、视频、音乐和数码照片之类数字资产的管理。其任务包括数字资产的编目、存储和检索等。
(2)图像处理系统
图像处理系统(Image Processing System)用于采集、转换和管理纸质件的影像和电子文件。
(3)档案管理系统
为遵从法规要求,档案管理系统(Records Management System)可能要有自动保管和处置、电子取证支持和长期归档的能力。它应该支持重要的档案程序,以保留关键业务档案。这种系统也许可以与文件管理系统集成。
2、内容管理系统
内容管理系统(Content Management System,CMS)用于收集、组织、索引和检索内容,将内容存储为组件或整个文件,同时保持组件之间的链接。
3、内容和文件工作流
9.3.2 协作工具
协作工具(Collaboration Tools)可用于收集、存储、工作流程和管理与团队活动相关的文件。社交网络可以使个人和团队在内部共享文件和内容,并通过博客、wikis、RSS和标签与外部团队进行交互。
9.3.3 受控词汇表和元数据工具
帮助开发或管理受控词汇表和元数据的工具,包括办公软件、元数据库和BI工具以及文件和内容管理系统。例如:
- 在组织中被用作数据指南的数据模型。
- 文件管理系统和办公软件。
- 元数据库、术语表或目录。
- 分类法和分类法之间的交叉参考模式。
- 集合索引(如特定的产品、市场或安装)、文件系统、民意调 查、档案、位置或异地控股。
- 搜索引擎。
- 非结构化数据的BI工具。
- 企业和部门同义词表。
- 已发布的报告库、内容和参考书目及其目录。
9.3.4 标准标记和交换格式
1、可扩展标示语言( XML)
可扩展标记语言(XML)提供了一种表示结构化和非结构化数据和信息的语言。XML使用元数据来描述任何文件或数据库的内容、结构和业务规则。
XML需要将数据结构转换为用于数据交换的文件结构。XML标记数据元素以识别数据的含义。简单的嵌套和引用提供了数据元素之间的关系。
2、基于JavaScript语言的轻量级的数据交换格式( JSON)
JSON(Java Script Object Notation)是一种开放的、轻量级的数据交换标准格式。
3、资源描述框架(RDF)和相关的万维网联盟(W3C)规范
4、Schema.org
使用语义标记来给内容打标签(如开源Schema.org所定义)使语义搜索引擎更容易索引内容,并使网络爬虫更容易将内容与搜索查询匹配。Schema.org提供了一组用于页面标记的共享词汇表或模式,以便主流的搜索引擎可以理解它们。它侧重于网页上的文字含义以及术语和关键词。
9.3.5 电子取证技术
电子取证通常涉及审查大量文件。电子取证技术活提供了许多功能和技术,如早期案例评估、收集、辨认、保全、处理、光学字符识别 (OCR)、剔除、相似性分析和电子邮件线程分析。
9.4 方法
9.4.1 诉讼应诉手册
指引手册汇编内容主要包括:
- 给每个部门(法律、档案管理、IT)建立制度和过程清单。
- 为各主题起草制度,如诉讼保留、文件保管、归档和备份。
- 评估IT工具的能力,如电子取证索引、搜索和收集、数据隔离和保护工具以及非结构化ESI源/系统。
- 识别和分析相关的法律问题。
- 制订沟通和培训计划,根据预期对员工进行培训。
- 确定可以提前准备的材料,以便根据法律案例进行裁减。
- 在需要外部服务的情况下分析供应商服务。
- 制定如何处理通知的流程并保持指引手册的最新状态。
9.4.2 诉讼应诉数据映射
电子取证通常有时间限制(如90天)。为律师提供可用的IT和ESI环境的数据映射,可以使组织更有效地做出应诉。数据映射是一个信息系统的目录,描述了系统以及系统的用途、包含的信息、保留策略和其他特征。从目录中通常会识别档案系统、源应用程序、存档、灾难恢复副本或备份以及用于每个系统的介质。
9.5 实施指南
9.5.1 就绪评估/风险评估
ECM就绪评估的目的是确定内容管理需要改进的方面,以及组织对改变其流程以满足这些需求的适应程度。数据管理成熟度评估模型可以 在此过程中提供帮助。
1、档案管理成熟度
该成熟度模型根据GARP 8个原则中的每一个原则,在5个成熟度等级上对信息治理和档案保管环境的特征作出了描述。这5个等级分别是:
- 1级,低于标准的(Sub-Standard)。信息治理和档案保管问题没有得到解决或只是最低限度的解决。
- 2级,发展中的(In Development)。认识到信息治理和档案保管可能对组织产生的影响。
- 3级,基本的(Essential)。必须满足法律法规的最低要求。
- 4级,积极的(Proactive)。已经建立了一个以持续改进为重点的主动式信息治理计划。
- 5级,完成变革的(Transformational)。信息治理已经融入企业的基础架构和业务流程中。
2、电子取证评估
评估准备中应检查并确定诉讼应诉计划的改进机会。成熟的规划将明确规定角色和职责、保存协议、数据收集方法和披露流程。规划和产生的流程都应被记录在案,要合乎情理并且具备可审计性。
9.5.2 组织和文化变革
9.6 文件和内容治理
9.6.1 信息治理架构
9.6.2 信息的激增
9.6.3 管理高质量的内容
9.6.4 度量指标