【Tika基础教程之一】Tika基础教程



一、快速入门

1、Tika是一个用于文本解释的框架,其本身并不提供任何的库用于解释文本,而是调用各种各样的库,如POI,PDFBox等。

使用Tika,可以提取文件中的作者、标题、创建时间、正文等内容,相比于java.io自带的一些功能(如FileInputStream,FIleReader,Scanner等):

(1)若文档为纯文本,如txt,html,java文件等,则二者对于文件内容的提取基本无差别,都可将内容呈现出来。

(2)若文档为富文本,如office,pdf等,使用java.io直接读取内容会得到一串乱码,而需要通过种种工具去提取正文内容,如PDFBox提取PDF文件,POI提取office文件等。

TIka已将各种工具作了统一封装,形成统一的API,用于提取文本正文。


但注意:解释文本

上述步骤只是将正文内容提取了出来,如将word文档、Html文档等的正文提取出来,但未对文档正文的内容进行解释,此时需要用到其它的工具如:

(1)DOM4J用于提取XML正文中的内容,如某个元素或者属性的值。

(2)HtmlPaser用于提取HTML正文中的内容,也是提取无素或者属性的值,比如提取文中的超链接等。

Tika是否已经完成此功能的封装还不确认,以后再研究。


2、使用GUI界面解释文本

(1)进入Tika所有的目录,运行以下命令:

java -jar "tika-app-1.5 (1).jar" -g


(2)Tika的图形界面被打开,然后找开File-openURL:


(3)点击确认后,即返回解释结果

默认情况下显示的是文本的元信息


(4)可以通过view菜单中的选项,分别查看 metadata, formatted text, plain text, main content, stuctured text等信息。


3、调用API解释文件


package com.ljh.test;import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;public class TikaBasicUtil {public String fileToTxt(File f) {//1、创建一个parserParser parser = new AutoDetectParser();InputStream is = null;try {Metadata metadata = new Metadata();metadata.set(Metadata.RESOURCE_NAME_KEY, f.getName());is = new FileInputStream(f);ContentHandler handler = new BodyContentHandler();ParseContext context = new ParseContext();context.set(Parser.class,parser);//2、执行parser的parse()方法。parser.parse(is,handler, metadata,context);for(String name:metadata.names()) {System.out.println(name+":"+metadata.get(name));}return handler.toString();} catch (FileNotFoundException e) {e.printStackTrace();} catch (IOException e) {e.printStackTrace();} catch (SAXException e) {e.printStackTrace();} catch (TikaException e) {e.printStackTrace();} finally {try {if(is!=null) is.close();} catch (IOException e) {e.printStackTrace();}}return null;}}

测试程序如下:

package com.ljh.test;import java.io.File;import org.junit.Test;public class TikaBasicUtilTest {@Testpublic void test() {TikaBasicUtil tbu = new TikaBasicUtil();System.out.println(tbu.fileToTxt(new File("D:/G组-C罗压哨助攻扳平 葡萄牙2-2美国保晋级希望.docx")));}}
输出结果如下:

cp:revision:3
meta:last-author:lujinhong
Last-Author:lujinhong
meta:save-date:2014-06-23T04:24:00Z
Application-Name:Microsoft Office Word
dcterms:created:2014-06-23T04:23:00Z
Author:lujinhong
Application-Version:15.0000
Character-Count-With-Spaces:1188
date:2014-06-23T04:24:00Z
Total-Time:1
extended-properties:Template:Normal.dotm
meta:line-count:8
creator:lujinhong
publisher:
Word-Count:177
meta:paragraph-count:2
Creation-Date:2014-06-23T04:23:00Z
extended-properties:AppVersion:15.0000
meta:author:lujinhong
Line-Count:8
extended-properties:Application:Microsoft Office Word
resourceName:G组-C罗压哨助攻扳平 葡萄牙2-2美国保晋级希望.docx
Paragraph-Count:2
Last-Save-Date:2014-06-23T04:24:00Z
Revision-Number:3
meta:creation-date:2014-06-23T04:23:00Z
dcterms:modified:2014-06-23T04:24:00Z
Template:Normal.dotm
Page-Count:1
meta:character-count:1013
dc:creator:lujinhong
meta:word-count:177
Last-Modified:2014-06-23T04:24:00Z
extended-properties:Company:
modified:2014-06-23T04:24:00Z
xmpTPg:NPages:1
extended-properties:TotalTime:1
dc:publisher:
Character Count:1013
meta:page-count:1
meta:character-count-with-spaces:1188
Content-Type:application/vnd.openxmlformats-officedocument.wordprocessingml.document
上半时美国队开球。第5分钟,葡萄牙队率先进球,维罗索左路45度把球吊入禁区,美国后卫卡梅伦解围失误,纳尼在远门柱附近右脚抽射球门上角建功,葡萄牙1-0美国。
第9分钟,邓普西突破被断,无队友接应。第11分钟,美国长传反击,科斯塔头球解围。第12分钟,阿尔维斯铲倒约翰逊,美国队获得禁区前任意球,邓普西主罚大力攻门,球擦着横梁高出。第16分钟,葡萄牙中锋波斯蒂加受伤,被埃德换下。第18分钟,美国右路传中,邓普西禁区左肋抽射打高。
第24分钟,美国队后场断球反击,布拉德利禁区前抽射,球擦着横梁高出。第27分钟,祖西传球,邓普西禁区右肋抽射,科斯塔堵枪眼。1分钟后,布拉德利远射稍偏。第32分钟,美国反击,约翰逊远射打偏。第34分钟,维罗索远射打在后卫身上,C罗拿球被吹越位。
第35分钟,C罗远射被霍华德扑住。第40分钟,琼斯受伤,主裁判吹停比赛,进入喝水时间。第42分钟,葡萄牙反击,C罗分球,纳尼右路远射被扑出。第43分钟,葡萄牙获得禁区前任意球,C罗主罚打高。第45分钟,纳尼远射打中立柱,埃德补射被霍华德用指尖挡出。上半时结束,葡萄牙1-0美国。
下半时易边,葡萄牙队用卡瓦略换下阿尔梅达。第48分钟,卡梅伦解围打在队友被贝斯勒身上,埃德抢射打高。第55分钟,美国队错失良机,约翰逊右路下底传中,布拉德利5码处推射,科斯塔门线堵枪眼。第62分钟,葡萄牙反击,C罗禁区右肋射门打偏。
第64分钟,美国队扳平比分,角球罚出被后卫解围出禁区,琼斯外围拿球横向闪过纳尼,右脚大力抽射,球飞进球门死角,葡萄牙1-1美国。
第66分钟,葡萄牙反击,纳尼右路传中,远端梅雷莱斯抽射被门将扑出。第68分钟,葡萄牙用完第三个换人名额,瓦雷拉换下梅雷莱斯。第74分钟,纳尼突入禁区摔倒,裁判没有吹罚点球。1分钟后,琼斯滑铲放倒穆蒂尼奥,吃到黄牌。第80分钟,纳尼右路禁区前横切远射打高。
第81分钟,美国队反超比分!琼斯中路分球,叶德林右路下底传中,布拉德利12码处推射打在后卫身上,祖西左路拿球传中,邓普西用胸口把球撞进空门,美国2-1葡萄牙。
第86分钟,维罗索直塞,C罗在越位位置完成射门。葡萄牙右路起球,C罗头球攻门顶偏。第93分钟,葡萄牙左路起球,C罗头球顶偏。第95分钟,C罗右路传中,瓦雷拉头冲顶破门,2-2!全场结束,美国2-2葡萄牙。
葡萄牙(433):22-贝托/21-佩雷拉、2-阿尔维斯、13-科斯塔、19-A-阿尔梅达(46'卡瓦略)/8-穆蒂尼奥、4-维罗索、16-梅雷莱斯(68'瓦雷拉)/17-纳尼、23-波斯蒂加(16'埃德)、7-C罗
美国(4231):1-霍华德/7-比斯利、5-贝斯勒、20-卡梅伦、23-F-约翰逊/15-贝克曼、13-琼斯/19-祖西(91'冈萨雷斯)、11-贝多亚(72'叶德林)、4-布拉德利/8-邓普西(87'沃多洛斯基)






转载于:https://www.cnblogs.com/jediael/p/4304119.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/293506.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

它是世界上最轻的固体!1000℃下不会熔化,上过火星,还能进你家......

全世界只有3.14 % 的人关注了爆炸吧知识小果冻大难关开学了,8岁表妹逮着这个机会讹了我一大箱果冻,超模君糊里糊涂就进了这只神兽的套。今天估计是一口气吃了太多,腻了,一边用手敲着果冻一边问超模君:“这果冻这么软&a…

使用C#快速生成二维码 | 真正跨平台方案

前言二维码(QR Code),与传统的一维码,比如条形码,二维码具有存储的数据量更大;可以包含数字、字符,及中文文本等混合内容;有一定的容错性(在部分损坏以后还可以正常读取&…

制作一个类似苹果VFL的格式化语言来描述UIStackView

在项目中总是希望页面上各处的文字,颜色,字体大小甚至各个视图控件布局都能够在发版之后能够修改以弥补一些前期考虑不周,或者根据统计数据能够随时进行调整,当然是各个版本都能够统一变化。看到这样的要求后,第一反应…

[Android] TextView 分页功能的实现

为什么80%的码农都做不了架构师?>>> 分页功能是阅读器类软件的基本功能之一, 也是自己之前写阅读器时遇到的第一个问题. 尝试了不少办法才解决, 现在把其中最容易实现的一个方法记录下来, 也方便大家参考. 基本思路如下: 从文件中读取 8000 个字符至缓冲…

把男朋友变成儿子你只需要一秒

1 别人以为的我▼2 幸好有监控,差点就没法和老婆解释了!▼3 为了卖化妆品我已经不止一次假装我有一群舔狗了▼4 这么多年下来班主任的这些套路谁还不清楚呢?▼5 司机同志们注意啦要主动停车接受检查▼6 让男友变儿子你只需要一秒钟▼7 …

容器界的新“朋友”

微软中国MSDN 点击上方蓝字关注我们Ignite 2021 上,微软发布了Azure Container Apps,这是一种以无服务器应用程序为中心的托管服务,用户看不到或无需管理任何底层 VM、协调器或其他云基础架构。Azure Container Apps支持打包在容器中的任何应…

史上最“可怕”的数学科普,能全都看懂的只有天才!

▲ 点击查看我们在生活中,或许最常听到的一句话就是:“数学是工具”。在《数学家的眼光》一书的开篇中,张景中院士却举了一个颠覆我们平常认知的例子:大数学家陈省身有一次在北京大学的讲座中语惊四座:“人们常说三角形…

.NET6之MiniAPI(五):选项

选项是配置一个升级版,一般情况下是把一个范围内的配置包装成类型,以供使用,比如下面的RedisSetting,是Redis的配置参数:{"Logging": {"LogLevel": {"Default": "Information"…

Android之项目中调用已有.so库

注意该.so库指的是android平台的,非一般linux、unix平台; 1、现有库libcom_ycan_testLib.so 2、新建android项目TestLib2 3、添加新类: 类名:testLib 包路径:参考现有库名,应为com.ycan 4、在新类中声明库的…

iNeuOS工业互联网操作系统,矿山动态产量计量系统和铁路车辆识别系统应用场景案例...

目 录1. 概述... 22. 平台演示... 23. 矿山动态产量计量系统... 24. 铁路车辆识别系统... 41. 概述iNeuOS工业互联网操作系统增加矿山动态产量计量和铁路车辆识别系统,提高矿山动态产量计量精度和完全避免产量核实误差的情况&#xff1…

85元一个万能工具箱,配齐24种螺丝刀+扳手,媲美德国工艺,家庭必备

▲ 点击查看对当代的男生来说,有什么技能是必须掌握的?自然是修理各种各样的东西啦~除了修电脑,还要修各种电器啊、家具啊之类的,讲真,会修理的男人都很帅!实用性能也满分,相当于女孩子会做饭一…

poj1505

题意:给出一个数列有n个数,要求用分割分把这个数列分成m段,不能改变原数列的顺序。每段至少一个数。求使得加和最大的那段的加和最小的划分方案。如果有多组解的话先要保证第一段和尽量小,若仍有多组解,要先保证第二段…

mysql出现连接错误不识别 utf8mb4

2019独角兽企业重金招聘Python工程师标准>>> 出现这样的错误,指的是不识别该字符集。 可能是 数据库 里面配置 或者是 连接属性 配置了该字符集那么修改回来即可。 还有一种情况就是 ,java-connert-sql连接包,版本太低了。比如 低…

一行代码完成定时任务调度,基于Quartz的UI可视化操作组件 GZY.Quartz.MUI

前言之前发布过第一个版本,有兴趣的可以去看看: NET Core 基于Quartz的UI可视化操作组件 GZY.Quartz.MUI 简介GitHub开源地址:l2999019/GZY.Quartz.MUI: 基于Quartz的轻量级,注入化的UI组件 总而言之,这个组件主要想做的就是:像swaggerUI一样,项目入侵量小,仅需要在Startup中注…

越绿自己,就会越强?

1 我们要求不高的(素材来源网络,侵删)▼2 小区的猫竟然通过监控抓老鼠(素材来源网络,侵删)▼3 不同职业的相亲对象(素材来源网络,侵删)▼4 别人家的年终奖&#xff0c…

Lync Server 2010迁移至Lync Server 2013部署系列 Part18:开启Lync 2013 Mobility

当我们将内部Lync 功能开通后,我们除了需要发布边缘开启外部登录功能外,我们还需要向用户提供Lync 手机登录功能,那么在今天的博文中我们就介绍一下关于如何开启Lync Mobility功能,就Lync 2013来讲,我个人认为开启Mobi…

使用springfox 集成swagger 与spring mvc

2019独角兽企业重金招聘Python工程师标准>>> 创建一个maven 模块 将springfox相关的配置都配置在一个单独的api模块中&#xff0c;可以把这个模块当成web应用跑起来。 <pluginRepositories> <pluginRepository> <id>jcenter-snapshots</id>…

技术分享 | CodeReview主要Review什么?

源宝导读&#xff1a;Code Review, 意即代码审查,是指一种有意识和系统的召集其他程序员来检查彼此的代码是否有错误的地方. 在敏捷团队中推行CodeReview, 可以帮助团队快速成长.本文将分享在"天际-建模平台"如何推行&实践CodeReview。一、为什么要 Code Review?…

你尿尿的时长是不是21秒?2次登上Nature封面的他,靠研究拉尿获得“诺贝尔奖”.........

全世界只有3.14 % 的人关注了爆炸吧知识男人的快乐就是这么朴实无华为什么蚊子不会被雨滴砸死&#xff1f;这个发在知乎上会被质疑患有十年脑血栓的问题&#xff0c;获得了2015年的中国搞笑诺贝尔奖——菠萝科学奖。获奖者结束获奖感言的方式也很搞笑&#xff1a;这个直接在“诺…

php curl用法

2019独角兽企业重金招聘Python工程师标准>>> curl 是使用URL语法的传送文件工具&#xff0c;支持FTP、FTPS、HTTP HTPPS SCP SFTP TFTP TELNET DICT FILE和LDAP。curl 支持SSL证书、HTTP POST、HTTP PUT 、FTP 上传&#xff0c;kerberos、基于HTT格式的上传、代理、…