关于Office系列文件文字内容的提取
本文主要通过接口的方式获取Office文件和PDF、OFD文件的文字内容。适用于需要获取Word、OFD、PDF、PPT等文件内容的提取实现。例如在线文字统计以及论文文字内容的提取。
一、提取Word及WPS文档的文字内容。
支持以下文件格式:
文档类型 | 文件格式 | 支持与否 |
---|---|---|
word | .doc、.docx、.wps、.rtf | ✔ |
ppt | .ppt、.pptx、.pps | ✔ |
✔ | ||
ofd | .ofd | ✔ |
excel | .xls、.xlsx、.et | ✔ |
请求地址:https://vw.usdoc.cn/
请求方式:GET
请求参数:
字段名称 | 字段类型 | 必填参数 | 说明 |
---|---|---|---|
src | string | 是 | 文件地址,即需要提取的文档地址。如:https://usdoc.cn/vw/文件模板.docx |
words | .string | 是 | words=all 提取全部内容 words=pag 以分页的形式对内容分页提取 |
公共响应参数:
字段名称 | 类型 | 描述 |
---|---|---|
code | numbe | code请求码,200表示正常 |
words | string | 错误描述信息,用来帮助理解和解决发生的错误。 |
data | object | 响应参数 |
响应参数:
字段名称 | 字段类型 | 描述 | 示例 |
---|---|---|---|
fileName | string | 文件名称 | 文件模板.docx |
fileSize | numbe | 文件大小,单位为字节 | words=all 提取全部内容 words=pag 以分页的形式对内容分页提取 |
pageCount | numbe | 文档页数,文件有多少页内容 | 3 |
content | string | 文档内容 | 关于国庆节放假安排的通知(在线预览)\r\r主送机关全称:…(usdoc在线预览) |
代码示例一:
提取全部内容,不分页返回
//请求接口地址:https://vw.usdoc.cn/
//参数: words=all
//完整的转换地址如下,可以将如下地址放在浏览器请求https://vw.usdoc.cn/?words=all&src=https://usdoc.cn/vw/文件模板.docx
https://vw.usdoc.cn/?words=all&src=https://usdoc.cn/vw/文件模板.docx
{"code": 200,"msg": "success","data": {"fileName": "文件模板.docx","fileSize": 128967,"pageCount": 3,"content": ["关于国庆节放假安排的通知(在线预览)\r\r主送机关全称:......(usdoc在线预览)\r文件正文。其致一也。后之览者,亦将有感于斯文。"]}
}
代码示例二:
以分页的方式提取全部内容,分页返回
//请求接口地址:https://vw.usdoc.cn/
//参数: words=pag
//完整的转换地址如下,可以将如下地址放在浏览器请求https://vw.usdoc.cn/?words=pag&src=https://usdoc.cn/vw/文件模板.docx
https://vw.usdoc.cn/?words=pag&src=https://usdoc.cn/vw/文件模板.docx
{"code": 200,"msg": "Success","data": {"fileName": "文件模板.docx","fileSize": 128967,"pageCount": 3,"content": ["关于国庆节放假安排的通知(usdoc在线预览)文件正文。...10月1日至7日放假调休,......三级标题(空两格)\r(1)四级标题(空两格)","当否,请批示。\r附件:1、\r 2、\r\r\rusdoc文档在线预览服务\r2022年10月10日\r\r\r\r\r\r(联系人:×××,联系电话:××××)","兰亭集序\r\r永和九年,岁在癸丑,暮春之初,会于会稽山阴之兰亭,修禊......,亦将有感于斯文"]}
}