出版实务 | 数字内容加工与产品制作

文章目录

  • 数字内容加工
    • 纸质图书数字化加工流程和要求
      • 加工流程
      • 元数据加工
      • 内容结构化加工
      • 内容要素的加工
      • 成品数据的构成
    • 数字内容图书的加工
  • 数字内容标引
  • 数字出版产品制作
    • 数字产品制作流程
    • 专题数据库的制作流程
  • 质量控制
    • 数字内容加工质量控制
    • 数字产品制作质量控制

本篇博文根据圣才电子书《出版专业理论与实务(初级)》整理。


数字内容加工

纸质图书数字化加工流程和要求

数字内容加工是指对出版资源的数字化整理和加工的过程,主要包括两部分

  • 对已经形成纸质图书的存量出版资源重新进行数字化、编码识别、校勘、结构化、重排和标引;
  • 对已经数字化、矢量化的内容资源进行结构化和各种深度内容标引。

根据出版单位数字内容使用要求,数字化加工工作可以分为

  • 初级加工,指将纸质图书直接扫描成图像,并转换成图像PDF文档,文档内容可长期保存但无法检索。
  • 中级加工,指将排版文件直接转换成矢量单层的PDF文档,或者将图像PDF文档进一步加工成双层PDF,即上层为图像PDF,下层为文字内容,既可保持图书的原版原式,也能提供内容检索功能。
  • 高级加工,指进行数字内容的结构化、碎片化加工和元数据标引,为出版单位开展知识服务奠定基础。

加工流程

纸质图书数字化加工流程分为图书整理、图书扫描、图像处理、版面分析、OCR(Optical Character Recognition,光学字符识别)识别、内容校对、内容结构化加工、版式/流式文件加工和质量检验这9个主要环节。

图书扫描常用的图像格式有TIFF、JPEG、PNG等,但通常采用无损压缩的TIFF格式存储。扫描时要注意图书页码顺序不能错,也不要有缺页、重页的情况发生。

TXT格式是文本格式。

元数据加工

元数据加工是在内容结构化加工过程中进行的,一般以XML格式存储在内容结构化文件中,可使用工具软件从图书内容中提取出来。

元数据是描述数据的数据,主要描述图书各类属性信息,一般分为

  • 图书元数据
    • 主要有图书书名作者信息CIP信息出版印刷信息包装信息等。
    • 是各种图书类数字出版产品的核心信息,也是内容加工产品制作的基础信息。
    • 通常存在于书名页版权页封面中。
  • 篇章节元数据
    • 主要有篇章名、篇章作者和篇章目录等。
    • 通常存在于目录篇章起始页中。

内容结构化加工

数字出版的内容结构以内容为主线,按照内容的层级进行划分。内容结构的层级和粒度可根据产品需要来确定,可以到篇章节,也可以细化到段落和图表,甚至细化到词条。同时对不同粒度的结构单元可根据需要标引分类和属性信息。

图书的结构通常由封面、正文前辅文、正文、正文后辅文组成,一般情况下,结构化加工可拆分到正文中的小节一级,可供制作电子书等数字化产品;工具书类图书可以细化加工到词条,可供制作专题数据库产品;科技类图书可以细化加工到概念、定理和公式等,可供制作知识资源数据库产品。

内容结构化加工是对图书内容进行内容结构的拆分、标引和各种元数据加工的工作。内容结构化加工对象包括章节标题、图表和辅文等。

在结构化加工时要抛弃与内容无关的版式信息和样式信息,如页眉、页脚、页码、装饰性图片等。

内容要素的加工

从图书数字化加工角度看,内容要素是区别于文字内容的组成部件。

通常的内容要素包括

  • 角标
    • 上角标和下角标需要用XML语法来描述,同时出现上、下角标时按图片加工。
  • 行外符号
    • 可以通过XML语法来描述。
  • 集外字、图片、公式
    • 需要加工成图片。
  • 表格
    • 通常加工成图片,也可根据产品设计要求,加工成电子表格。
  • 注释、参考文献
    • 不论是脚注、尾注还是旁注都需要标记其属性,并通过关联关系的描述与引用点进行关联。

成品数据的构成

根据加工要求的不同,纸书数字化加工的成品数据也有所不同,通常包括

  • 采用无损压缩的TIFF格式存储的原始图像文件
    • 采用无损压缩的TIFF格式存储,不支持拷贝和查找功能。
  • 单层图像PDF文件
    • 只有图像层的PDF文件,内容无法复制和检索。
  • 双层PDF文件
    • ⭐️支持文字内容复制和检索
  • 单层矢量PDF文件
    • ⭐️支持文字内容复制和检索
  • 图书元数据XML文件
  • 结构化XML文件
  • 图书ePub文件
    • 在结构化XML基础上加工成的符合ePub3.0国际标准的流式文件。
    • ⭐️支持文字内容复制和检索
    • ePub文件是一种常用的数字出版文档格式,正逐渐成为电子书格式转换、出版、分发和销售等环节统一的文档格式标准。
  • ……

数字内容图书的加工

用于传统印刷的排版文件主要有

  • 方正书版文件
  • InDesign文件
  • Word文件
  • ……

在进行结构化加工之前一般需要收集整理排版文件及其关联文件,再使用对应的、版本正确的排版软件将排版文件转换输出为PDF格式的文件。

数字内容图书的结构化加工环节是在PDF文件上进行的,加工目标和纸质图书的内容结构化加工是一致的。

数字内容标引

标引方式主要有

  • 分类标引
    • 是指对数字内容进行分类标引就是赋予数字内容对象一个或多个分类号,以便于用户通过分类索引找到这个数字内容对象。
    • 分类法系统性强,内容分类后符合人类的检索习惯,十分方便实用;主题法直观性强,是一种直接的、面向对象、事实和概念的组织方法,容易理解。
    • 分类标引时注意使用跳号处理,以便于未来扩充或调整类目。
    • 使用分类标引首先要确定分类体系。
  • 主题标引
    • 是指根据内容主题分析的结果,将一个或多个主题词赋予数字内容对象的过程。
    • 在进行主题标引时,为了规范主题标引时的选用词汇,避免误标、错标、漏标等情况,标引者可以选择《汉语主题词表》或《中国分类主题词表》中的规范主题词。

数字内容标引的策略主要有

  • 整体标引
    • 是指针对内容资源的整体提取主题予以标引。
  • 分散标引
    • 是指针对内容资源中的片段或集合型内容资源的构成单元所进行的标引。
    • 标引内容资源时必须先进行整体标引,再进行分散标引。
  • 受控标引
    • 是指采用受控语言进行主题概念表达的标引方式,如采用《中国图书馆分类法》的分类号、《汉语主题词词表》的主题词进行标引。
  • 自由标引
    • 是指采用自然语言语词作标识表达主题概念的标引方式。

编辑在标引入库资源时

  • 部分标引字段可以选择受控标引,如分类号、主题词等;
  • 部分字段可以选择自由标引,如关键词、内容描述等。

必须对内容的版权状态进行标引。

针对数字内容的不同粒度,可以使用不同的元数据进行标引。

数字出版产品制作

数字产品制作流程

数字产品制作流程包括

  • 内容整合
    • 是指将经审校及数字化加工的文字、音频、视频和交互模块等数字内容按照《数字出版产品需求规格说明书》的要求进行整合的过程。
    • 产品内容整合的过程需要遵循完整性有效性准确性的原则。
  • 产品规范化
    • 产品规范化是指将整合后的内容按照产品设计的要求进行转换和封装,以实现产品发布目标的过程,一般包括内容的规范化、内容和软件的打包、版权加密等方面的工作。
  • 产品测试
    • 包括产品内容检测、可运行模块测试和产品功能测试。

专题数据库的制作流程

专题数据库产品是一种具备独立主题内容或某一专门领域知识的数据库产品。通常大型的百科全书和工具书可设计成此类数字出版产品。

专题数据库产品制作流程包括

  • 专题资源的遴选
  • 数字内容的抽取
  • 建立数据库
  • 产品整合
  • 产品测试

专题数据库制作完成后需要对产品进行两方面的系统的测试工作才能发布

  • 功能测试
    • 主要测试产品设计的各项功能是否已经实现,涉及数据库相关功能时要检测返回的内容结果是否准确有效。
  • 性能测试
    • 主要测试数据库在设定的软硬件环境中的运行性能是否满足设计要求,可能的测试项包括检索并发数、检索响应时间和页面响应时间等。

质量控制

产品的质量要求包括

  • 完整性
    • 要求包括类型完整、内容完整、质量管理文档完整
  • 规范性
    • 要求包括规格、文件参数、内容结构、存储等方面
  • 有效性
    • 要求包括成品数据应能通过相关软件及系统读出,不允许出现数据损坏、异常报错、无法打开等错误。
  • 准确性
    • 指如实地记录和反映特定事物的状态信息。

质量控制的方法包括以下几种

  • 点验
    • 是对数据加工质量中完整性要求进行定量检验的方法,应根据要求逐一清点加工数量和加工类型;
  • 批处理数据校验
    • 是对数据加工质量中规范性要求进行定性检验的方法,用于对成品数据规格进行检验;
  • 应用环境模拟校验
    • 是对数据加工质量中的有效性要求进行定性检测;
  • 人工抽样检测
    • 是对数据加工质量中的准确性要求进行定量检测,按照一定的比例从交付的成品数据中抽取数据样本进行检测。

数字内容加工质量控制

内容加工的质量控制有一套完整的工序和流程。从数据交接开始,进行数据完整性、规范性校验,解决校验中的问题,并出具校验报告。加工数据的质量校验包括图像质量校验、PDF质量校验、XML质量校验、元数据质量校验等。

PDF质量校验是加工数据的质量校验的重要内容之一,它的主要内容包括

  • 文字检查
  • 书签检查
  • 版式检查
  • 内容完整性检查
    • 检查PDF文件是否有缺页、多页、错页、页序错误等。

数字产品制作质量控制

【例】简答题:根据所给材料回答问题。[2015年真题]
✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️
某出版社拟将一批纸质图书进行数字化加工后制作数字出版产品,其设计的数字化加工流程如下(其中各个环节按序排列,而具体工作内容已予以简化):
第一环节 数据整理与格式转换
对接收到的数据进行规范化整理和修改工作。
第二环节 图书整理
逐页检查图书,处理好影响扫描的污损、粘连等问题。
第三环节 图书扫描
利用图文扫描仪将纸质图书逐页扫描为图像并以TIFF格式存储。
第四环节 图像处理
对扫描后的图像进行处理,包括污点去除、浓淡调整、版心调整和倾斜矫正,使之更适合阅读和识别。
第五环节 OCR识别
利用工具软件把图像中的文字、符号等转化为文本文件。
第六环节 版面分析
标记各类内容区域并确定其属性。
第七环节 内容结构化加工
使用专门工具软件对图书内容进行加工工作,确保图书数据的全面和准确。
第八环节 版式和流式文件加工
对上述各环节的成果进行集成和加工,使用专门的工具软件制作成版式文件和流式文件。
第九环节 质量检验
对成品数据的质量进行检验,确保加工的数据是合格的。
✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️
问题一: 该加工流程设计中对环节的安排存在哪些失误?
答: 该加工流程设计中对环节的安排存在的失误有:
(1)纸质图书加工不需要“数据整理与格式转换”环节。
(2)“OCR识别”环节后缺少“内容校对”环节。
(3)“版面分析”环节应该在“OCR识别”环节之前。
✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️
问题二: 内容结构化加工时需要做哪些具体工作?
答: 内容结构化加工时需要做的具体工作是内容拆分、内容标引、元数据加工。
✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️✏️
问题三: 数字化加工完成后,哪些类型的文件应该作为成品数据保存?请作选择回答。
A.原始图像文件dui
B.原始文本TXT文件❌
C.单层图像PDF文件
D.双层PDF文件
E.图形、图像打包ZIP文件❌
F.单层矢量PDF文件
G.图书元数据XML文件
H.结构化XML文件
I.资源数据库DBF文件❌
J.图书ePub文件

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/599829.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux Shell】7. printf 命令

文章目录 【 1. printf 命令的使用方法 】【 2. 实例 】 【 1. printf 命令的使用方法 】 printf 命令模仿 C 程序库(library)里的 printf() 程序,printf 由 POSIX 标准所定义,因此使用 printf 的脚本比使用 echo 移植性好。prin…

docker容器启动etcd3.5

目录 环境:(window11) 1、配置本地docker镜像地址配置成国内源: 1.1 docker-Desktop里面,增加这个部分内容: 1.2 修改docker的daemon.json文件一个效果: 2、dockerfile文件内容: 1、提前下载etcd3.5的…

AIGC初探:提示工程 Prompt Engineering

简介 提升工程是什么 提示工程(Prompt Engineering)是人工智能领域中的一个概念,特别是在自然语言处理(NLP)领域中。它是一种通过设计和优化输入提示来提高AI模型表现的方法。 对于基于转换器的大型语言模型&#x…

Wireshark本地回环网络抓包

背景 因为发往本机的数据包是通过回环地址的,即:数据包不会通过真实的网络接口发送,因此我们需要通过设置路由规则来让本来发到虚拟网络接口的数据包发送到真实网络接口即可。 场景描述:在网络程序开发的过程中,有时…

计算机Java项目|SpringBoot+Vue实现的在线考试系统

项目编号:L-BS-KS-02 一,环境介绍 语言环境:Java: jdk1.8 数据库:Mysql: mysql5.7 应用服务器:Tomcat: tomcat8.5.31 开发工具:IDEA或eclipse 二,项目简介 基于SpringBootVue的在线考试…

电子元器件选型与实战应用—07 二极管选型与应用第2篇

文章目录 一、稳压二极管1.1 原理1.2 参数解析1.3 稳压管选型案例1.3.1 工作原理1.3.2 仿真1.3.3 限流电阻确定二、LED二极管2.1 介绍2.2 案例介绍2.2.1 问题描述2.2.2 电路设计前文推荐: 电子元器件选型与实战应用—06 二极管选型与应用第1篇</

SQL效率-查询条件需避免使用函数处理索引字段

一个sql效率的问题 问题 假设created_at 是date类型、是索引&#xff0c;那么以下2种方式有没效率差异&#xff1a; WHERE TO_CHAR(created_at, ‘YYYY-MM-DD’) ‘2020-02-01’WHERE created_at TO_DATE(‘2020-02-01’ , ‘YYYY-MM-DD’) DBA回复 有的&#xff0c;第一…

牢牢把握“心价比”,徕芬的业绩爆发是一种必然?

回顾徕芬的2023年 &#xff0c;战果颇为丰硕&#xff1a;上半年就完成2022年全年的销售额&#xff0c;同比增长245%&#xff1b;用户增长超500万&#xff1b;多次取得线上销售量份额第一…… 虽然业绩突破背后也有消费复苏的激励作用&#xff0c;但具体到电吹风市场&#xff0…

一篇文章认识微服务中Eureka的原理和服务注册与发现

目录 1、认识Eureka 2、Eureka原理 2.1 和Dubbo架构对比&#xff1a; 2.2 三大角色 3、微服务常见的注册中心 3.1 Zookeeper 3.2 Eureka 3.3 Consul 3.4 Nacos 3.5 区别 Netflix 在设计Eureka 时&#xff0c;遵循的就是AP原则。 CAP原则又称CAP定理&#xff0c;指的…

SSM在线手机品牌商城----计算机毕业设计

项目介绍 该项目为前后台项目&#xff0c;分为普通用户与管理员两种角色&#xff0c;前台普通用户登录&#xff0c;后台管理员登录&#xff1b; 管理员角色包含以下功能&#xff1a; 管理员登录,用户管理,品牌管理,子品牌管理,商品管理,订单管理,留言板管理等功能。 用户角…

Eclipse先关的一些配置

启动配置设置 配置项详细说明&#xff1a; -Xms&#xff1a;初始堆内存大小&#xff0c;设定程序启动时占用内存大小&#xff0c;默认物理内存1/64 -Xms -XX:InitialHeapSiz-Xmx&#xff1a;最大堆内存&#xff0c;设定程序运行期间最大可占用的内存大小。如果程序运行需要…

博客摘录「 什么是QPS、TPS、吞吐量?- 高并发名词概念」2024年1月5日

1.什么是高并发&#xff1f; 高并发&#xff08;High Concurrency&#xff09;。通常是指系统在短时间内的大量操作。 高并发相关的常见指标有&#xff1a;QPS、TPS、吞吐量、并发数等。 2.QPS&#xff08;Query Per Second&#xff09; QPS每秒查询率&#xff0c;是指系统…

KK集团高管变更:陈世欣任总经理,涉无证放贷遭关注,还曾被处罚

近日&#xff0c;KK集团关联公司广东快客电子商务有限公司&#xff08;下称“KK集团”&#xff09;发生工商变更&#xff0c;其中郭惠波不再担任该公司总经理一职&#xff0c;由陈世欣接任。而在早前&#xff0c;陈世欣曾于2020年取代吴悦宁担任总经理职务&#xff0c;2021年7月…

上帝视角俯视工厂设计模式

引言 本篇聊聊设计模式中的简单工厂、工厂方法、抽象工厂设计模式&#xff0c;争取在看完这篇后不会再傻傻分不清以及能够应用在实际项目中 背景 以一个咱们都熟悉的场景举个例子&#xff0c;我们平时都会戴口罩&#xff0c;用来过滤一些普通病毒&#xff0c;大致的设计如下…

C++矩阵例题分析(3):螺旋矩阵

一、审题 时间限制&#xff1a;1000ms 内存限制&#xff1a;256MB 各平台平均AC率&#xff1a;14.89% 题目描述 输出一个n*n大小的螺旋矩阵。 螺旋矩阵的样子&#xff1a; 输入描述 共一行&#xff0c;一个正整数n&#xff0c;表示矩阵变长的长度…

NGUI基础-Widget

目录 Widget是什么 Widget组件包含的属性 Pivot Depth Size snap Aspect Free Based on Width Based on Height Widget是什么 在Unity UI系统中&#xff0c;"Widget"是指UI元素的基类&#xff0c;它为UI元素提供了位置、大小和锚点等基本属性。通过使用&qu…

LeetCode 2:两数相加

一、题目描述 给你两个 非空 的链表&#xff0c;表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的&#xff0c;并且每个节点只能存储 一位 数字。 请你将两个数相加&#xff0c;并以相同形式返回一个表示和的链表。 你可以假设除了数字 0 之外&#xff0c;这两个…

C-浮点数类型表示

文章目录 尽管最近有些小小的迷茫&#xff0c;但是刷题不能马虎啊&#xff01;最近在做790. 数的三次方根1&#xff0c;所以回顾一下C语言中是如何表示浮点数类型的。 以下是ChatGPT的回复&#xff1a; Elaborate on floating point types in C, such as tails and exponents…

QT上位机开发(网络程序界面开发)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 传统的上位机对接方式还是以232、485、can为主&#xff0c;随着网络的发展&#xff0c;越来越多的设备都是以网络进行通信的。毕竟相比较之前&…

java练习题之List(ArrayList)集合练习

List集合 习题&#xff1a; 1&#xff1a;完成以下填空&#xff1a; List 接口的特点是元素 有序 &#xff08;有|无&#xff09;顺序&#xff0c; 可重复 &#xff08;可以|不可以&#xff09;重复&#xff1b; 2&#xff1a;(List)关于List 集合描述正确的是&#xff08;…