Office文件内容提取 | 获取Word文件内容 |Javascript提取PDF文字内容 |PPT文档文字内容提取

关于Office系列文件文字内容的提取

本文主要通过接口的方式获取Office文件和PDF、OFD文件的文字内容。适用于需要获取Word、OFD、PDF、PPT等文件内容的提取实现。例如在线文字统计以及论文文字内容的提取。

USDOC文档在线处理

一、提取Word及WPS文档的文字内容。

支持以下文件格式:

文档类型文件格式支持与否
word.doc、.docx、.wps、.rtf
ppt.ppt、.pptx、.pps
pdf.pdf
ofd.ofd
excel.xls、.xlsx、.et

请求地址:https://vw.usdoc.cn/
请求方式:GET
请求参数:

字段名称字段类型必填参数说明
srcstring文件地址,即需要提取的文档地址。如:https://usdoc.cn/vw/文件模板.docx
words.stringwords=all 提取全部内容 words=pag 以分页的形式对内容分页提取

公共响应参数:

字段名称类型描述
codenumbecode请求码,200表示正常
wordsstring错误描述信息,用来帮助理解和解决发生的错误。
dataobject响应参数

响应参数:

字段名称字段类型描述示例
fileNamestring文件名称文件模板.docx
fileSizenumbe文件大小,单位为字节words=all 提取全部内容 words=pag 以分页的形式对内容分页提取
pageCountnumbe文档页数,文件有多少页内容3
contentstring文档内容关于国庆节放假安排的通知(在线预览)\r\r主送机关全称:…(usdoc在线预览)

代码示例一:

提取全部内容,不分页返回

//请求接口地址:https://vw.usdoc.cn/
//参数: words=all
//完整的转换地址如下,可以将如下地址放在浏览器请求https://vw.usdoc.cn/?words=all&src=https://usdoc.cn/vw/文件模板.docx

https://vw.usdoc.cn/?words=all&src=https://usdoc.cn/vw/文件模板.docx

{"code": 200,"msg": "success","data": {"fileName": "文件模板.docx","fileSize": 128967,"pageCount": 3,"content": ["关于国庆节放假安排的通知(在线预览)\r\r主送机关全称:......(usdoc在线预览)\r文件正文。其致一也。后之览者,亦将有感于斯文。"]}
}

代码示例二:

以分页的方式提取全部内容,分页返回

//请求接口地址:https://vw.usdoc.cn/
//参数: words=pag
//完整的转换地址如下,可以将如下地址放在浏览器请求https://vw.usdoc.cn/?words=pag&src=https://usdoc.cn/vw/文件模板.docx

https://vw.usdoc.cn/?words=pag&src=https://usdoc.cn/vw/文件模板.docx

{"code": 200,"msg": "Success","data": {"fileName": "文件模板.docx","fileSize": 128967,"pageCount": 3,"content": ["关于国庆节放假安排的通知(usdoc在线预览)文件正文。...10月1日至7日放假调休,......三级标题(空两格)\r(1)四级标题(空两格)","当否,请批示。\r附件:1、\r          2、\r\r\rusdoc文档在线预览服务\r2022年10月10日\r\r\r\r\r\r(联系人:×××,联系电话:××××)","兰亭集序\r\r永和九年,岁在癸丑,暮春之初,会于会稽山阴之兰亭,修禊......,亦将有感于斯文"]}
}

Office在线预览示例

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/77636.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Cesium学习笔记——dem/tif地形的分块与加载

前言 在Cesium的学习中,学会读文档十分重要!!!在这里附上Cesium中英文文档1.117。 在Cesium项目中,在平坦坦地球中加入三维地形不仅可以增强真实感与可视化效果,还可以​​提升用户体验与交互性&#xff0c…

Spring Boot 断点续传实战:大文件上传不再怕网络中断

精心整理了最新的面试资料和简历模板,有需要的可以自行获取 点击前往百度网盘获取 点击前往夸克网盘获取 一、痛点与挑战 在网络传输大文件(如视频、数据集、设计稿)时,常面临: 上传中途网络中断需重新开始服务器内…

数码管LED显示屏矩阵驱动技术详解

1. 矩阵驱动原理 矩阵驱动是LED显示屏常用的一种高效驱动方式,利用COM(Common,公共端)和SEG(Segment,段选)线的交叉点控制单个LED的亮灭。相比直接驱动,矩阵驱动可以显著减少所需I/…

【上位机——MFC】菜单类与工具栏

菜单类 CMenu,封装了关于菜单的各种操作成员函数,另外还封装了一个非常重要的成员变量m_hMenu(菜单句柄) 菜单使用 添加菜单资源加载菜单 工具栏相关类 CToolBarCtrl-》父类是CWnd,封装了关于工具栏控件的各种操作。 CToolBar-》父类是CC…

liunx中常用操作

查看或修改linux本地mysql端口 cat /etc/my.cnf 如果没有port可以添加,有可以修改 查看本地端口占用情况 bash netstat -nlt | grep 3307 HADOOP集群 hdfs启动与停止 # 一键启动hdfs集群 start-dfs.sh # 一键关闭hdfs集群 stop-dfs.sh #除了一键启停外&#x…

衡石chatbi如何通过 iframe 集成

iframe 集成方式是最简单的一种&#xff0c;您只需要在您的 HTML 文件中&#xff08;或 Vue/React 组件中&#xff09;添加一个 iframe 元素&#xff0c;并设置其 src 属性为 AI 助手的 URL。 <iframesrc"https://develop.hengshi.org/copilot"width"100%&q…

Java集合框架深度解析:HashMap、HashSet、TreeMap、TreeSet与哈希表原理详解

一、核心数据结构总览 1. 核心类继承体系 graph TDMap接口 --> HashMapMap接口 --> TreeMapSet接口 --> HashSetSet接口 --> TreeSetHashMap --> LinkedHashMapHashSet --> LinkedHashSetTreeMap --> NavigableMapTreeSet --> NavigableSet 2. 核心特…

HTTP 1.0 和 2.0 的区别

HTTP 1.0 和 2.0 的核心区别体现在性能优化、协议设计和功能扩展上&#xff0c;以下是具体对比&#xff1a; 一、核心区别对比 特性HTTP 1.0HTTP 2.0连接方式非持久连接&#xff08;默认每次请求新建 TCP 连接&#xff09;持久连接&#xff08;默认保持连接&#xff0c;可复用…

gnome中删除application中失效的图标

什么是Application 这一块的东西应该叫application&#xff0c;准确来说应该是applications。 正文 系统级&#xff1a;/usr/share/applications 用户级&#xff1a;~/.local/share/applications ying192 ~/.l/s/applications> ls | grep xampp xampp.desktoprm ~/.local…

OpenFeign 使用教程:从入门到实践

文章目录 一、什么是 OpenFeign&#xff1f;1、什么是 OpenFeign&#xff1f;2、什么是 Feign&#xff1f;3、OpenFeign 与 Feign 的关系4、为什么选择 OpenFeign&#xff1f;5、总结 二、OpenFeign 的使用步骤1. 导入依赖2. 启用 OpenFeign3. 配置 Nacos 三、FeignClient 参数…

蓝桥杯 16.对局匹配

对局匹配 原题目链接 题目描述 小明喜欢在一个围棋网站上找别人在线对弈。这个网站上所有注册用户都有一个积分&#xff0c;代表他的围棋水平。 小明发现&#xff0c;网站的自动对局系统在匹配对手时&#xff0c;只会将积分差恰好是 K 的两名用户匹配在一起。如果两人分差小…

C#常用LINQ

在开发时发现别人的代码使用到了LINQ十分便捷且清晰&#xff0c;这里记录一下常用LINQ和对应的使用。参考链接&#xff1a;LINQ 菜鸟教程 使用的学生类和字符串用于测试 public class Student {public int StudentID;public string StudentName;public int Age; }Student[] st…

单例模式(线程安全)

1.什么是单例模式 单例模式&#xff08;Singleton Pattern&#xff09;是一种创建型设计模式&#xff0c;旨在确保一个类只有一个实例&#xff0c;并提供一个全局访问点来访问该实例。这种模式涉及到一个单一的类&#xff0c;该类负责创建自己的对象&#xff0c;同时确保只有单…

Python 之 __file__ 变量导致打包 exe 后路径输出不一致的问题

现象 做项目的时候&#xff0c;一直使用 os.path.dirname(os.path.abspath(__file__)) 来获取当前目录。然而&#xff0c;最近却遇到了一个路径相关的问题。直接运行 py 文件是正常的&#xff0c;但是打包成 exe 之后&#xff0c;却显示因为路径问题导致程序报错无法继续执行。…

PH热榜 | 2025-04-21

1. Google Whisk 2.0 标语&#xff1a;将图像转换为八秒的动画短片。 介绍&#xff1a;Whisk 是谷歌实验室的一项新创新&#xff0c;现在推出了 Whisk Animate——它可以将你的图片转换成生动的8秒视频&#xff0c;采用了 Veo 2 技术。此功能现已在60多个国家的 Google One A…

AI大模型 —— 国产大模型 —— 华为大模型

有这么一句话&#xff0c;那就是AI大模型分两种&#xff0c;一种是大模型&#xff1b;另一种是华为大模型。 如果从技术角度来分析&#xff0c;华为的技术不论是在软件还是硬件都比国外的大公司差距极大&#xff0c;甚至有些技术评论者认为华为的软硬件技术至少落后2.5代&#…

FPGA 中 XSA、BIT 和 DCP 文件的区别

在 FPGA&#xff08;现场可编程门阵列&#xff09;开发中&#xff0c;XSA、BIT 和 DCP 文件是常见的文件类型&#xff0c;它们在功能、用途、文件内容等方面存在明显区别&#xff0c;以下是详细介绍&#xff1a; 1. XSA 文件 定义与功能 XSA&#xff08;Xilinx Shell Archiv…

MH2103系列coremark1.0跑分数据和优化,及基于arm2d的优化应用

CoreMark 1.0 介绍 CoreMark 是由 EEMBC&#xff08;Embedded Microprocessor Benchmark Consortium&#xff09;组织于 2009 年推出的一款用于衡量嵌入式系统 CPU 或 MCU 性能的标准基准测试工具。它旨在替代陈旧的 Dhrystone 标准&#xff08;Dhrystone 容易受到各种libc不同…

云原生与AI的关系是怎么样的?

云原生与AI的结合正在重塑现代应用的开发与部署模式&#xff0c;两者相辅相成&#xff0c;共同推动技术创新与产业升级。以下是两者的核心概念、结合点及未来趋势的详细解析&#xff1a; 一、云原生与AI的核心概念 云原生&#xff08;Cloud Native&#xff09; • 定义&#…

【CentOs】构建云服务器部署环境

(一) 服务器采购 2 CPU4G 内存40G 系统盘 80G 数据盘 (二) 服务器安全组和端口配置 (三) 磁盘挂载 1 登录 root 2 查看目前磁盘使用情况 df -h 3 查看磁盘挂载情况 识别哪些磁盘没挂载 fdisk -l 4 对未挂载磁盘做分区 fdisk /dev/vdb 输入m&#xff0…