OFD 版式技术解析系列(一):开篇

在版式电子文件领域,大家比较熟悉的就是 PDF(Portable Document Format)格式,该格式由 Adobe 公司在 1992 年发布,迄今已经有 28 个年头,2008 年 7 月 1 日,IS 组织正式发布 PDF 的国际标准,PDF 成为了独立公开的文档标准,任何公司和个人,都能针对这项标准进行产品的开发,这使得 PDF 成为了版式文档国际上最常见的格式。

那为什么在很多文档传递,信息发布,档案归档保存的过程中会使用 PDF 这种版式格式,而不是 DOC,TXT 格式?通俗讲,版式文档有一个非常大的优越性,就是在不同的地方打开显示的内容是一致的,这包括电子屏幕的显示,以及打印机上的打印效果。这不会因为设备、软件的改变或者操作人员的不同而在版面、字体、字号的改变。

当然,目前除了 PDF 之外还有很多厂商用自己专用的软件打开自己的特定的文档格式。文档格式的不统一、不开放、不可控就会造成文档流转有困难,长期保存有问题。如果一家公司采购了一家公司的软件,使用他们的特定格式进行档案的存储,因为文件格式特殊,只有专用的软件才能打开,若干年后,硬件、操作系统等发展飞快,文档软件维护跟不上,造成很多档案失效,势必会造成一定的影响。

2009 年,《电子文件管理暂行办法》提出要自己的版式文档存储和交换格式标准,于是在 2011 年,国家电子文件管理部际联席会议将电子文件存储和交换格式标准列为“十二五”重点任务,并由工信部具体负责编制,耗时 5 年多,在 2016 年 10 月 14 日,成功的发布了《电子文件存储与交换格式版式文档》标准编号为 GB/T33190-2016,OFD(Open Fixed-Layout Document format)

OFD 文档都包括哪些部分呢?

本标准主要包括版式文档的技术架构、成像模型、扩展名、文件结构、命名空间、字符编码、基础数据类型、入口与根节点、页树、页结构、大纲、资源等基本结构的描述,以及页面描述、图形、图像、文字、视频、复合对象、动作、注释、自定义标引、签名、附件、版本和扩展等具体元素的定义等方面,构成图如下:

在组织方式上,OFD 采用文件+打包的格式标准,除了文件的资源文件(图片、多媒体等)采用目前流行的格式(jpg、png…)外,其他均采用 xml 格式来描述具体内容,一个 OFD 文档的组织机构如下:

OFD 这个标准的推出,一个重要意义就是我们第一次有了国家层级的自主版式格式和技术。实现电子文件信创可控的战略需求。虽然也有一些其他的优秀的国内版式格式,但是 OFD 这一标准的推出,更有利于整个行业的整合,推进相关应用的快速发展。

那可能有一个问题要问,和 PDF 相比,OFD 有哪些优缺点呢?和 PDF 相比,OFD 对于技术的描述并不全面,很多方面都不涉及,由于是国家版式标准,我们更希望为我们的需求服务,在一些实际应用过程中需求比较集中的方面,OFD 做了很多的工作,以使得这个标准更好的为我们的应用服务。

如下表,列了一些常见的特性,用于说明问题。

ofd.xml:文件主入口文件,一个文件仅有一个,定义元数据信息和文档结构文件路径
Doc_N:第 N 个文档的文件夹
Document.xml:具体每个文档的根节点,内含所有资料的 id 和路径,可用于生成大纲
Page_N: 第 N 页的文件夹,内含每页的文档内容
Content.xml:第 N 页的内容描述,其中用到的资源,如图片等,包括字体、文字、结构等信息,会引用 res 中的资源。
PageRes.xml:第 N 页的资源描述
Res:资源文件夹(图片等)
publicRes.xml:文档公共资源索引(索引 id 和路径)
DocumentRes.xml:文档资深资源索引
Signs:签名文件夹
Signatures.xml:签名列表文件
Seal.esl:电子签章文件
SignedValue.dat:签名值文件
Annotation.xml:注释结构文件

OFD 这个标准的推出,一个重要意义就是我们第一次有了国家层级的自主版式格式和技术。实现电子文件信创可控的战略需求。虽然也有一些其他的优秀的国内版式格式,但是 OFD 这一标准的推出,更有利于整个行业的整合,推进相关应用的快速发展。

那可能有一个问题要问,和 PDF 相比,OFD 有哪些优缺点呢?和 PDF 相比,OFD 对于技术的描述并不全面,很多方面都不涉及,由于是国家版式标准,我们更希望为我们的需求服务,在一些实际应用过程中需求比较集中的方面,OFD 做了很多的工作,以使得这个标准更好的为我们的应用服务。

如下表,列了一些常见的特性,用于说明问题。

OFD 采用了 zip 6.2.0 作为多文件的数据组织方式。文档以 XML 进行格式存储,比起 PDF 使用 postscript 字符序列编码,在这两点上有非常大的可读性优势,易于理解和存储。OFD 还兼顾了 PDF 的优缺点,抛弃了一些冗余、不太常用、过时和过于复杂的特性,保持了主要的特征和版式描述能力。增加了比如公文域这种特性的支持,支持国密,同时支持批注的分离保存,在高效性和安全性方面都得到了很大的提升。

那么总结一下,它有哪些优势呢

01 文档开放,门槛低

根据上述的介绍,我们知道了 OFD 是由 xml 和一些常用的媒体格式构成的,而 PDF 则是采用 postScript 这种文本和二进制代码相结合的描述方式,这种 xml 格式更容易更加容易被理解与辨认,同时也更容易保证文档的长期保存。在存储结构上讲,是用容器+文档的方式,其中描述文件和资源文件隔离存储,这样不会破坏文件的原始信息。还能保证文件的安全性。

02 易扩展,支持分离式拓展

如文中提到的分离式批注,这是 OFD 的一个比较大的优点,很大程度上保证了性能。同时 OFD 允许进行进行自定义标签,可以根据各个领域的特点进行扩展,比如说,卷宗归档方面可以自己定义一个证据指引标签,用于把卷宗上的各个证据与文件进行关联。从这一点讲,已经超出了单纯的版式文档格式,可以更加贴合实际的需求。

03 国密算法

在安全方面,OFD 获得了国家保密局的算法支持,可以支持国密系列的国密散列及签名算法进行数字签章,遵循 GMT 2014-0031《安全电子签章密码技术规范》。

04 信创可控

自己指定的标准,如果不适合我国文档的流转于存储,可以有针对性的进行修改,而不是需要和个别厂商去协商,不受控于外部的厂商,这些就是 PDF 和其他格式所不具备的特点。

总结与展望

上述从产生背景、OFD 的格式介绍与优势等方面对 OFD 格式进行了介绍,可能会想,为什么我们很少见呢?这就不得不说一下它的缺点和局限性。

(1) pdf 格式根生蒂固,生态完整,生成和阅读成本低,而 ofd 作为一个新事物,生态不完整,转换成本高,目前主要存在于电子政务领域。

(2) 用户短期都在无法离开 pdf 以及 office 这样的环境,并且 ofd 目前也没有获得到主流文档编辑软件的支持。

这些局限性作为一个新生事物是必须面对的,国产软件必将经历这些困难才能涅槃重生。目前 OFD 标准的制定已经有了一个很好的开端,各厂商也都在积极构建 OFD 生态,接下来的应用推广、普及将会成为一个趋势,无论在电子文件、公文、数字印刷、电子发票、档案管理等领域,都将逐步向 OFD 格式转变,华宇也正在为 OFD 的生态建设贡献自己的力量。

华宇发布了基于 OFD 的产品 ArteryPaper,对 OFD 的版式相关技术进行了全面的解析和研究,后续华宇技术团队会陆续将一些关键技术的研究成果给大家进行分享,欢迎关注订阅。同时也欢迎越来越多的人共同研究 OFD。

延伸阅读

http://c.gb688.cn/bzgk/gb/showGb?type=online&hcno=3AF6682D939116B6F5EED53D01A9DB5D

作者:北京华宇信息技术有限公司-研究院-信创实验室

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/495699.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

无人驾驶急需解决:规划控制和传感器价格高两大问题

来源:AI科技大本营 作者 :Mavis2017 年百度 AI 开发者大会上,现场视频连线了正乘坐无人驾驶汽车行驶在五环上朝会场赶来的李彦宏,他坐在副驾驶上解说,身边司机的双手并没有触碰方向盘,也正是因为这句话&am…

CString 与 LPCWSTR、LPSTR、char*、LPWSTR 等类型的转换

From:https://www.cnblogs.com/leanee/articles/2940088.html char [] 到 LPWSTR转换的一个具体应用:http://www.cppblog.com/lateCpp/articles/153358.html CString详细讲解:https://blog.csdn.net/qq_41786318/article/details/81989217 …

ofd电子文档内容分析工具(分析文档、签章和证书)

前言 ofd是国家文档标准,其对标的文档格式是pdf。ofd文档是容器格式文件,ofd其实就是压缩包。将ofd文件后缀改为.zip,解压后可看到文件包含的内容。 加入QQ交流群:618168615。获取下载程序。 ofd文件解压后,可以看到…

关于信任

[caption id"attachment_349" align"alignnone" width"374" caption"Trust is the most important thing to the team!"][/caption] 偶然间看到一张截图,是杭州小马哥不知何年何月何地做的show,这句话从他嘴里讲…

ES的安装和RestClient的操作

目录 初识elasticsearch 什么是elasticsearch elasticsearch的发展 Lucene的优缺点 elasticsearch的优势 倒排索引 es与mysql的概念对比 文档 索引 概念对比 架构 安装es 安装kibana 安装ik分词器 分词器 安装ik分词器 ik分词器的拓展和停用词典 操作索引库…

深度 | 智慧•城市,基于国际视野下的思考

来源:智慧城市决策参考智慧城市的兴起,得益于ICT技术的迅猛发展。经过这些年国内外诸多城市的探索和实践,智慧城市已经从最初的营销概念,逐渐发展成为一种支持城市发展的新理念。然而在实际应用中,智慧城市的内涵仍然是…

__cdecl、__stdcall、__fastcall 与 __pascal 浅析

X86调用约定 calling convention:https://www.cnblogs.com/shangdawei/p/3323252.html__cdecl、__stdcall、__fastcall 与 __pascal 浅析:https://www.cnblogs.com/yenyuloong/p/9626658.html王爽 汇编语言第三版 第9章 转移指令的原理:https…

全文详解:「深度学习」如何协助处理医疗中的「数据难题」

原文来源:WordPress作者:Luke Oakden-Rayner「雷克世界」编译:嗯~是阿童木呀、KABUDA、EVA医疗数据很难处理。在医学成像中,数据存储(档案)是基于临床假设进行操作的。不幸的是,这意味着当你想提…

Android应用程序变量

Android应用程序开发中,有的时候我们在应用程序的任何一个地方都需要访问一个全局变量,也就是在任何一个Activity中都可以访问的变量。它不会因为Activity的生命周期结束而消失。要实现应用程序级的变量,我们可以通过Application这个类来实现…

百度谷歌等联合推出机器学习基准 加速AI软硬件发展

来源:中国新闻网5月2日,由包括百度、谷歌、斯坦福大学、哈佛大学在内的多家企业和高校联合发布了一套用于测量和提高机器学习软硬件性能的国际基准MLPerf。其巨大的学术和产业价值获业界肯定,被认为不仅将加速推进机器学习硬件软件相关技术创…

王爽 汇编语言第三版 第10章 call 和 ret 指令 以及 子程序设计

第10章 call 和 ret 指令 10.1 ret 和 reft 指令 call 和 ret 指令都是转移指令,他们都修改 IP,或同事修改 CS 和 IP 。他们经常被共同来实现子程序的设计。 10.2 call 指令 和 根据位移 转移的call指令 段间转移 的 call 指令 转移地址 在 寄存器 中 的…

org/apache/maven/cli/MavenCli : Unsupported major.minor version 51.0

一、错误现象: 当改变了jdk版本时,在编译java时,会遇到Unsupported major.minor version错误。 jdk版本和stanford parser对应关系 JDK版本和Java编译器内部的版本号 J2SE 8 52, J2SE 7 51, J2SE 6.0 50, J2SE 5.0 49, JDK 1.4 48, J…

ip, tcp, udp, icmp header

Figure 1. IPv4 header Figure 2. TCP header Figure 3. UDP header Figure 4. ICMP header reference:TCP/IP Reference转载于:https://www.cnblogs.com/lbsx/archive/2010/11/30/1891814.html

人民日报三问人工智能,给法律制度带来哪些挑战?

来源:亿欧网 作者:倪弋摘要:人工智能生成物是否具有知识产权?人工智能可以替代司法者吗?人工智能侵权责任如何认定?人工智能的出现会给现行的法律制度带来了不少挑战,只有在法律研究上未雨绸缪…

测试用例设计--判定表

一. 判定表 定义判定表通常由四部分组成,如上图: 条件桩 : 它列出决定一组条件的对象; 条件项: 它列出各种可能的条件组合; 动作桩: 它列出所有的操作; 动作项: 它列出在对应的条件组合下的动作. 应用的范围在多个条件决定多个动…

王爽 汇编语言第三版 第11章 标志寄存器

条件码: ① OF(Overflow Flag)溢出标志,溢出时为1,否则置0.标明一个溢出了的计算,如:结构和目标不匹配.② SF(Sign Flag)符号标志,结果为负时置1,否则置0.③ ZF(Zero Flag)零标志,运算结果为0时…

Gartner:预计2018年人工智能行业总价值达1.2万亿美元

来源:网络大数据市场研究公司Gartner周三发布最新研究报告称,人工智能行业的总价值将在2018年达到1.2万亿美元,比2017年增长70%。其中,创造商业价值最大的领域是客户体验解决方案。该公司还预计,到2022年的时候&#x…

JAVA将html[动态]页面转成图片

近日项目上接到一个任务,设计并编写住院病案首页页面,然后将其转换成图片显示给医生查看。 天哪,住院病案内容那么多,光编写这个页面就已经够呛了,转图片我也没弄过,于是百度了一下,花了两天时间…

王爽 汇编语言第三版 课程设计 1

From:https://www.cnblogs.com/Since-natural-ran/p/6938133.html 汇编语言-课程设计1: https://www.cnblogs.com/tsembrace/p/3267158.html 王爽课程设计1(汇编语言编写): https://www.imooc.com/article/18785 王爽《汇编语言》课程设计1: https://blog.csdn.net/…

挑战权威还是偏离主流?颠覆性研究或将证明神经信号是机械波

来源:科研圈 翻译 马骁骁 编辑 魏潇 廖红艳就职于哥本哈根尼尔斯玻尔研究所(Niels Bohr Institute)的托马斯亨伯格(Thomas Heimburg),是一位研究量子力学和生物物理的物理学家。然而,他却希…