java xpdf 转换成html_java将Word/Excel/PDF文件转换成HTML整理

项目开发过程中,需求涉及到了各种文档转换为HTML或者网页易显示格式,现在将实现方式整理如下:

一、使用Jacob转换Word,Excel为HTML

“JACOB一个Java-COM中间件.通过这个组件你可以在Java应用程序中调用COM组件和Win32 libraries。”

首先下载Jacob包,JDK1.5以上需要使用Jacob1.9版本(JDK1.6尚未测试),与先前的Jacob1.7差别不大

1、将压缩包解压后,Jacob.jar添加到Libraries中;

2、将Jacob.dll放至“WINDOWS\SYSTEM32”下面。

需要注意的是:

【使用IDE启动Web服务器时,系统读取不到Jacob.dll,例如用MyEclipse启动Tomcat,就需要将dll文件copy到MyEclipse安装目录的“jre\bin”下面。

一般系统没有加载到Jacob.dll文件时,报错信息为:“java.lang.UnsatisfiedLinkError: no jacob in java.library.path”】

新建类:

1

0818b9ca8b590ca3270a3433284dd417.png

public

class

JacobUtil

2

0818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png

{30818b9ca8b590ca3270a3433284dd417.pngpublic staticfinalintWORD_HTML=8;40818b9ca8b590ca3270a3433284dd417.png50818b9ca8b590ca3270a3433284dd417.pngpublic staticfinalintWORD_TXT =7;60818b9ca8b590ca3270a3433284dd417.png70818b9ca8b590ca3270a3433284dd417.pngpublic staticfinalintEXCEL_HTML=44;80818b9ca8b590ca3270a3433284dd417.png90818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png/** *//**100818b9ca8b590ca3270a3433284dd417.png     * WORD转HTML110818b9ca8b590ca3270a3433284dd417.png     *@paramdocfile WORD文件全路径120818b9ca8b590ca3270a3433284dd417.png     *@paramhtmlfile 转换后HTML存放路径130818b9ca8b590ca3270a3433284dd417.png*/140818b9ca8b590ca3270a3433284dd417.pngpublic staticvoidwordToHtml(String docfile, String htmlfile)150818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png0818b9ca8b590ca3270a3433284dd417.png{160818b9ca8b590ca3270a3433284dd417.png        ActiveXComponent app=newActiveXComponent("Word.Application");//启动word 170818b9ca8b590ca3270a3433284dd417.pngtry180818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png0818b9ca8b590ca3270a3433284dd417.png{190818b9ca8b590ca3270a3433284dd417.png            app.setProperty("Visible",newVariant(false));200818b9ca8b590ca3270a3433284dd417.png            Dispatch docs=app.getProperty("Documents").toDispatch();210818b9ca8b590ca3270a3433284dd417.png            Dispatch doc=Dispatch.invoke(220818b9ca8b590ca3270a3433284dd417.png                    docs,230818b9ca8b590ca3270a3433284dd417.png"Open",240818b9ca8b590ca3270a3433284dd417.png                    Dispatch.Method,250818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.pngnewObject[] 0818b9ca8b590ca3270a3433284dd417.png{ docfile,newVariant(false),260818b9ca8b590ca3270a3433284dd417.pngnewVariant(true) },newint[1]).toDispatch();270818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png            Dispatch.invoke(doc,"SaveAs", Dispatch.Method,newObject[] 0818b9ca8b590ca3270a3433284dd417.png{280818b9ca8b590ca3270a3433284dd417.png                    htmlfile,newVariant(WORD_HTML) },newint[1]);290818b9ca8b590ca3270a3433284dd417.png            Variant f=newVariant(false);300818b9ca8b590ca3270a3433284dd417.png            Dispatch.call(doc,"Close", f);310818b9ca8b590ca3270a3433284dd417.png        }320818b9ca8b590ca3270a3433284dd417.pngcatch(Exception e)330818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png0818b9ca8b590ca3270a3433284dd417.png{340818b9ca8b590ca3270a3433284dd417.png            e.printStackTrace();350818b9ca8b590ca3270a3433284dd417.png        }360818b9ca8b590ca3270a3433284dd417.pngfinally370818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png0818b9ca8b590ca3270a3433284dd417.png{380818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png            app.invoke("Quit",newVariant[]0818b9ca8b590ca3270a3433284dd417.png{});390818b9ca8b590ca3270a3433284dd417.png        }400818b9ca8b590ca3270a3433284dd417.png    }410818b9ca8b590ca3270a3433284dd417.png420818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png/** *//**430818b9ca8b590ca3270a3433284dd417.png     * EXCEL转HTML440818b9ca8b590ca3270a3433284dd417.png     *@paramxlsfile EXCEL文件全路径450818b9ca8b590ca3270a3433284dd417.png     *@paramhtmlfile 转换后HTML存放路径460818b9ca8b590ca3270a3433284dd417.png*/470818b9ca8b590ca3270a3433284dd417.pngpublic staticvoidexcelToHtml(String xlsfile, String htmlfile)480818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png0818b9ca8b590ca3270a3433284dd417.png{490818b9ca8b590ca3270a3433284dd417.png        ActiveXComponent app=newActiveXComponent("Excel.Application");//启动word 500818b9ca8b590ca3270a3433284dd417.pngtry510818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png0818b9ca8b590ca3270a3433284dd417.png{520818b9ca8b590ca3270a3433284dd417.png            app.setProperty("Visible",newVariant(false));530818b9ca8b590ca3270a3433284dd417.png            Dispatch excels=app.getProperty("Workbooks").toDispatch();540818b9ca8b590ca3270a3433284dd417.png            Dispatch excel=Dispatch.invoke(550818b9ca8b590ca3270a3433284dd417.png                    excels,560818b9ca8b590ca3270a3433284dd417.png"Open",570818b9ca8b590ca3270a3433284dd417.png                    Dispatch.Method,580818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.pngnewObject[] 0818b9ca8b590ca3270a3433284dd417.png{ xlsfile,newVariant(false),590818b9ca8b590ca3270a3433284dd417.pngnewVariant(true) },newint[1]).toDispatch();600818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png            Dispatch.invoke(excel,"SaveAs", Dispatch.Method,newObject[] 0818b9ca8b590ca3270a3433284dd417.png{610818b9ca8b590ca3270a3433284dd417.png                    htmlfile,newVariant(EXCEL_HTML) },newint[1]);620818b9ca8b590ca3270a3433284dd417.png            Variant f=newVariant(false);630818b9ca8b590ca3270a3433284dd417.png            Dispatch.call(excel,"Close", f);640818b9ca8b590ca3270a3433284dd417.png        }650818b9ca8b590ca3270a3433284dd417.pngcatch(Exception e)660818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png0818b9ca8b590ca3270a3433284dd417.png{670818b9ca8b590ca3270a3433284dd417.png            e.printStackTrace();680818b9ca8b590ca3270a3433284dd417.png        }690818b9ca8b590ca3270a3433284dd417.pngfinally700818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png0818b9ca8b590ca3270a3433284dd417.png{710818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png            app.invoke("Quit",newVariant[]0818b9ca8b590ca3270a3433284dd417.png{});720818b9ca8b590ca3270a3433284dd417.png        }730818b9ca8b590ca3270a3433284dd417.png    }740818b9ca8b590ca3270a3433284dd417.png750818b9ca8b590ca3270a3433284dd417.png}

76

0818b9ca8b590ca3270a3433284dd417.png

当时我在找转换控件时,发现网易也转载了一偏关于Jacob使用帮助,但其中出现了比较严重的错误:String htmlfile = "C:\\AA";

只指定到了文件夹一级,正确写法是String htmlfile = "C:\\AA\\xxx.html";

到此WORD/EXCEL转换HTML就已经差不多了,相信大家应该很清楚了:)

二、使用XPDF将PDF转换为HTML

2、下载中文支持包

3、下载pdftohtml支持包

4、解压调试

1) 先将xpdf-3.02pl2-win32.zip解压,解压后的内容可根据需要进行删减,如果只需要转换为txt格式,其他的exe文件可以删除,只保留pdftotext.exe,以此类推;

2) 然后将xpdf-chinese-simplified.tar.gz解压到刚才xpdf-3.02pl2-win32.zip的解压目录;

3) 将pdftohtml-0.39-win32.tar.gz解压,pdftohtml.exe解压到xpdf-3.02pl2-win32.zip的解压目录;

4) 目录结构:

+---[X:\xpdf]

|-------各种转换用到的exe文件

|

|-------xpdfrc

|

+------[X:\xpdf\xpdf-chinese-simplified]

|

|

+-------很多转换时需要用到的字符文件

xpdfrc:此文件是用来声明转换字符集对应路径的文件

5) 修改xpdfrc文件(文件原名为sample-xpdfrc)

修改文件内容为: Txt代码

0818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png

#

-----

begin Chinese Simplified support

package

0818b9ca8b590ca3270a3433284dd417.pngcidToUnicode    Adobe

-

GB1       xpdf

-

chinese

-

simplified\Adobe

-

GB1.cidToUnicode

0818b9ca8b590ca3270a3433284dd417.pngunicodeMap      ISO

-

2022

-

CN     xpdf

-

chinese

-

simplified\ISO

-

2022

-

CN.unicodeMap

0818b9ca8b590ca3270a3433284dd417.pngunicodeMap      EUC

-

CN          xpdf

-

chinese

-

simplified\EUC

-

CN.unicodeMap

0818b9ca8b590ca3270a3433284dd417.pngunicodeMap  GBK    xpdf

-

chinese

-

simplified\GBK.unicodeMap

0818b9ca8b590ca3270a3433284dd417.pngcMapDir         Adobe

-

GB1       xpdf

-

chinese

-

simplified\CMap

0818b9ca8b590ca3270a3433284dd417.pngtoUnicodeDir                    xpdf

-

chinese

-

simplified\CMap

0818b9ca8b590ca3270a3433284dd417.pngfontDir  C:\WINDOWS\Fonts  

0818b9ca8b590ca3270a3433284dd417.pngdisplayCIDFontTT Adobe

-

GB1 C:\WINDOWS\Fonts\simhei.ttf

0818b9ca8b590ca3270a3433284dd417.png#

-----

end Chinese Simplified support

package

0818b9ca8b590ca3270a3433284dd417.png

6) 创建bat文件pdftohtml.bat(放置的路径不能包含空格)

内容为: Txt代码

0818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png

@echo off

0818b9ca8b590ca3270a3433284dd417.pngset folderPath

=%

1

0818b9ca8b590ca3270a3433284dd417.pngset filePath

=%

2

0818b9ca8b590ca3270a3433284dd417.pngcd

/

d

%

folderPath

%

0818b9ca8b590ca3270a3433284dd417.pngpdftohtml

-

enc GBK

%

filePath

%

0818b9ca8b590ca3270a3433284dd417.pngexit 7) 创建类

JAVA代码

0818b9ca8b590ca3270a3433284dd417.png

public

class

ConvertPdf

0818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png

{

0818b9ca8b590ca3270a3433284dd417.pngprivate staticString INPUT_PATH;  

0818b9ca8b590ca3270a3433284dd417.pngprivate staticString PROJECT_PATH;  

0818b9ca8b590ca3270a3433284dd417.png      

0818b9ca8b590ca3270a3433284dd417.pngpublic staticvoidconvertToHtml(String file, String project)  

0818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png0818b9ca8b590ca3270a3433284dd417.png{  

0818b9ca8b590ca3270a3433284dd417.png        INPUT_PATH=file;  

0818b9ca8b590ca3270a3433284dd417.png        PROJECT_PATH=project;  

0818b9ca8b590ca3270a3433284dd417.pngif(checkContentType()==0)  

0818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png0818b9ca8b590ca3270a3433284dd417.png{  

0818b9ca8b590ca3270a3433284dd417.png            toHtml();  

0818b9ca8b590ca3270a3433284dd417.png        }0818b9ca8b590ca3270a3433284dd417.png    }0818b9ca8b590ca3270a3433284dd417.png      

0818b9ca8b590ca3270a3433284dd417.pngprivate staticintcheckContentType()  

0818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png0818b9ca8b590ca3270a3433284dd417.png{  

0818b9ca8b590ca3270a3433284dd417.png        String type=INPUT_PATH.substring(INPUT_PATH.lastIndexOf(".")+1, INPUT_PATH.length())  

0818b9ca8b590ca3270a3433284dd417.png                .toLowerCase();  

0818b9ca8b590ca3270a3433284dd417.pngif(type.equals("pdf"))  

0818b9ca8b590ca3270a3433284dd417.pngreturn 0;  

0818b9ca8b590ca3270a3433284dd417.pngelse0818b9ca8b590ca3270a3433284dd417.pngreturn 9;  

0818b9ca8b590ca3270a3433284dd417.png    }0818b9ca8b590ca3270a3433284dd417.png      

0818b9ca8b590ca3270a3433284dd417.pngprivate staticvoidtoHtml()  

0818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png0818b9ca8b590ca3270a3433284dd417.png{  

0818b9ca8b590ca3270a3433284dd417.pngif(newFile(INPUT_PATH).isFile())  

0818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png0818b9ca8b590ca3270a3433284dd417.png{  

0818b9ca8b590ca3270a3433284dd417.pngtry0818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png0818b9ca8b590ca3270a3433284dd417.png{  

0818b9ca8b590ca3270a3433284dd417.png                String cmd="cmd /c start X:\\pdftohtml.bat \""+ PROJECT_PATH +"\"\""+ INPUT_PATH +"\"";  

0818b9ca8b590ca3270a3433284dd417.png                Runtime.getRuntime().exec(cmd);  

0818b9ca8b590ca3270a3433284dd417.png            }0818b9ca8b590ca3270a3433284dd417.pngcatch(IOException e)  

0818b9ca8b590ca3270a3433284dd417.png

0818b9ca8b590ca3270a3433284dd417.png0818b9ca8b590ca3270a3433284dd417.png{  

0818b9ca8b590ca3270a3433284dd417.png                e.printStackTrace();  

0818b9ca8b590ca3270a3433284dd417.png            }0818b9ca8b590ca3270a3433284dd417.png        }0818b9ca8b590ca3270a3433284dd417.png    }0818b9ca8b590ca3270a3433284dd417.png      

0818b9ca8b590ca3270a3433284dd417.png}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/528382.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql 出现 quot_MYSQL 新版出现 Client does_mysql _ 搞代码

mysql 帮助:A.2.3 Client does not support authentication protocolMySQL 4.1 and up uses an authentication protocol based on a password hashing algorithm that is incompatible with that used by older clients. If you upgrade the server to 4.1, attemp…

java开发有日志存表的吗_Java日志信息存库(logback篇)

一、Logback简介Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块:logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个 改良版本。此外logback-classic完整实现SLF4J A…

java中filehandler_java – 如何配置特定FileHandler的属性

Java日志记录配置文件允许我定义命名记录器的属性,例如name.heikoseeberger.heikotron.level FINEname.heikoseeberger.heikotron.handlers java.util.logging.FileHandler到现在为止还挺好.现在我想配置特定的FileHandler,例如使用特定的输出文件.不幸的是我只知道如何配置已…

android java标准时间_java android中对list的时间进行排序

public class HahaTime { public static void main(String[] args) { /** * 原来的日期 */ List list new ArrayList(); list.add("2014-03-04 22:22:22"); list.add("2014-4-04 22:22:2…

等待读取完毕 java_java – 等待来自客户端读取消息的套接字服务器

您可以简单地执行以下操作:String line;while ((line in.readLine()) ! null) {\\Do stuff}这应该具有预期的行为.编辑:这是我在使用您的代码的评论中谈论的完整示例:package javaapplication12;import java.io.BufferedReader;import java.…

Java可移动性不强_java地位无可撼动的原因

如今,面对曾经在程序员中被各种新技术掩盖直至堙灭的技术值得怀念。犹如COBOL这当年被老程序员们尊为神器的语言如今也基本没有价值。而Java作为现代程序员的中坚力量在这点上会不会成为下一个COBOL?有关JAVA的技术卖出多少本书已经是一个很久远的记忆了…

php rar_PHP: rar:// - Manual

说明The wrapper takes the url encoded path to the RAR archive (relative or absolute),an optional asterik (*), an optional number sign(#) and an optional url encoded entry name, as stored in thearchive. Specifying an entry name requires the number sign; a l…

终端执行php,PHP命令行执行PHP脚本的注意事项总结

文章来给各位同学介绍在PHP命令行执行PHP脚本的注意事项总结,如果你不注意这些东西,很可能服务器安全就出问题哦。如果你使用的wamp集成安装环境的话,那么你php的配置是在D:/wamp/bin/apache/Apache2.2.17/bin你要先把他复制覆盖掉D:/wamp/bin/php/php5.…

敏感词过滤的php代码,PHP敏感词过滤

/*** 禁词过滤* 执行效率:每篇用时0.05秒* author liuxu**/class Logic_BlackWord{const APP_FORUM 1;const APP_BLOG 2;const APP_VOTE 3;/*** 过滤得到禁词* param unknown $txt* return Ambigous */public function getHitList($txt){$hitList array();//对…

? php 为啥报错,如何解决js里面的php代码报错问题

在一个模块中,前端是extjs,后端是php,报错,这是在php的错误警告开到最严格的时候报的错,虽然程序可以跑,可是日志堆积越来越多。Undefined variable:loginUserNameExt.onReady(function () {var app Ext.c…

java其他进程,Java进程优先于其他Windows进程

我的任务是创建一个自定义文件备份服务,允许任何使用此服务的笔记本电脑在连接到我们的网络服务器时备份某些目录.我得到的一个要求是,该服务应该基本上优先于用户在该笔记本电脑上的正常活动而不是阻碍性能……太多了.我用Java创建了这个程序,目的是将它作为服务包装在YAJSW中…

centos php redhat,RHEL / CentOS 安装 OPcache 提升 PHP 效能

OPcache 在 PHP 5.5 (默认没有开启)开始内建在 PHP, 前身是 Zend Optimizer, PHP 5.2, 5.3 及 5.4 则要透过安装 PECL extension 安装。它的作将已经编译的 PHP Script 储存在内存, 当下次存取 PHP Script 时不用重新编译, 这样便可以提高 PHP 的效能。以下是在 CentOS 7 安装指…

php数据回显是什么意思,jquery回显是什么意思

首先来看一下回显是什么意思?在数据提交出现错误的时候, 已填写的信息仍在文本框中, 比如用户登录, 当用户输入错误的密码之后, 用户名仍在文本框, 只是密码框清空。对于一些要填写很多信息的表单, 如果因为一些错误导致已经填写的整个表单信息重新填写, 对于用户非…

Java摩托车汽车轮胎数量,摩托车轮子上的知识,你知道多少?

原标题:摩托车轮子上的知识,你知道多少?摩托车轮子好比人的两条腿,决定了车子跑得远,跑得快和跑得是否安稳。摩友们似乎对轮子的关心不多,因为它是易损件,概念中轮子轮胎出了问题,随便找路边的“风火补胎”…

matlab中的 variable,matlab中的问题Missing variable or function

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼请教各位大虾啦!!matlab中的问题Missing variable or function.??? Error: File: D:\matlab\one.m Line: 17 Column: 11Missing variable or function.是什么意思啊?源程序是:%machine characteristic %p109 machine parameter…

php抽象方法db,PHP笔记之抽象方法抽象类

抽象方法定义:一个方法如果没有方法体,则这个方法就是抽象方法。1.一个方法们没有{},直接使用分号结束的方法;2.如果是抽象方法,必须使用abstract(抽象关键字来修饰)抽象类1.如果一个类中有一个方法是抽象方法&#xf…

php配置文件加盐解密,PHP实现支持加盐的图片加密解密

一个简单的图片加解密函数&#xff0c;使用client跑&#xff0c;不要使用浏览器跑话不多说&#xff0c;直接上代码/*** Created by hello.* User: qq 845875470* Date: 2016/4/2* Time: 11:21*/$notice <<为了稳定性&#xff0c;必须在客户端跑格式 &#xff1a;php pat…

matlab中的uint8函数,未定义与 'uint8' 类型的输入参数相对应的函数 'fitnessty'

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼程序如下&#xff1a;clear allclcticpopsize15;lanti10;maxgen50;cross_rate0.4;mutation_rate0.1;a00.7;zpopsize5;bestf0;nf0;number0;Iimread(C:\Users\Yu\Pictures\feiji.jpg);if numel(I)>2Irgb2gray(I);end[m,n]size(I);…

php文本文件操作,文本文件操作的php类

var $file;var $index;//建立一个文件并写入输入 function null_write($new) {$ffopen($this->file,w);flock($f,LOCK_EX);fputs($f,$new);fclose($f);} // 添加数据记录到文件末端 function add_write($new) { $ffopen($this->file,a);flock($f,LOCK_EX);fputs($f,$new)…

php创建输入文本框,Asp:文本框与输入文本(PHP开发人员学习ASP)

What is the advantage to using an over using a standard ?>您可以在代码隐藏页面中更容易地引用文本框>注意,您可以通过在控件中使用runat “server”来访问代码隐藏中的任何HTML元素>您可以访问文本框上的更多属性,而不是输入html元素>您可以与其他ASP.NET控件…