java抽组件_Java实现的基于模板的网页结构化信息精准抽取组件:HtmlExtractor

HtmlExtractor由2个子项目构成,html-extractor和html-extractor-web。

html-extractor实现了数据抽取逻辑,是从节点,html-extractor-web提供web界面来维护抽取规则,是主节点。

html-extractor是一个jar包,可通过maven引用:

org.apdplat

html-extractor

1.0

html-extractor-web是一个war包,需要部署到Servlet/Jsp容器上。

单机集中式使用方法:

//1、构造抽取规则

List urlPatterns = new ArrayList<>();

//1.1、构造URL模式

UrlPattern urlPattern = new UrlPattern();

urlPattern.setUrlPattern("http://money.163.com/\\d{2}/\\d{4}/\\d{2}/[0-9A-Z]{16}.html");

//1.2、构造HTML模板

HtmlTemplate htmlTemplate = new HtmlTemplate();

htmlTemplate.setTemplateName("网易财经频道");

htmlTemplate.setTableName("finance");

//1.3、将URL模式和HTML模板建立关联

urlPattern.addHtmlTemplate(htmlTemplate);

//1.4、构造CSS路径

CssPath cssPath = new CssPath();

cssPath.setCssPath("h1");

cssPath.setFieldName("title");

cssPath.setFieldDescription("标题");

//1.5、将CSS路径和模板建立关联

htmlTemplate.addCssPath(cssPath);

//1.6、构造CSS路径

cssPath = new CssPath();

cssPath.setCssPath("div#endText");

cssPath.setFieldName("content");

cssPath.setFieldDescription("正文");

//1.7、将CSS路径和模板建立关联

htmlTemplate.addCssPath(cssPath);

//可象上面那样构造多个URLURL模式

urlPatterns.add(urlPattern);

//2、获取抽取规则对象

ExtractRegular extractRegular = ExtractRegular.getInstance(urlPatterns);

//注意:可通过如下3个方法动态地改变抽取规则

//extractRegular.addUrlPatterns(urlPatterns);

//extractRegular.addUrlPattern(urlPattern);

//extractRegular.removeUrlPattern(urlPattern.getUrlPattern());

//3、获取HTML抽取工具

HtmlExtractor htmlExtractor = HtmlExtractor.getInstance(extractRegular);

//4、抽取网页

String url = "http://money.163.com/08/1219/16/4THR2TMP002533QK.html";

List extractResults = htmlExtractor.extract(url, "gb2312");

//5、输出结果

int i = 1;

for (ExtractResult extractResult : extractResults) {

System.out.println((i++) + "、网页 " + extractResult.getUrl() + " 的抽取结果");

for(ExtractResultItem extractResultItem : extractResult.getExtractResultItems()){

System.out.print("\t"+extractResultItem.getField()+" = "+extractResultItem.getValue());

}

System.out.println("\tdescription = "+extractResult.getDescription());

System.out.println("\tkeywords = "+extractResult.getKeywords());

}

多机分布式使用方法:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/506884.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql索引过多为什么会慢_mysql – 为什么索引使这个查询更慢?

摘要问题是由于b-trees的性质,字段不适合索引.说明假设你有一张表有500,000个掷硬币的结果,其中抛掷是1(头)或0(尾)&#xff1a;CREATE TABLE toss (id int NOT NULL AUTO_INCREMENT,result int NOT NULL DEFAULT 0,PRIMARY KEY ( id ))select result, count(*) from toss grou…

pythonweb管理电脑_Python远程控制局域网计算机网络远程控制软件Python的开发,python,电脑,web...

[Python] 纯文本查看 复制代码import web import osimport timefrom PIL import ImageGrabimport numpy as npimport cv2urls (/reboot_html/(.*), reboot_html,/jp_html/(.*), jp_html,/shutdown_html/(.*), shutdown_html,/(js|css|images)/(.*), static)app web.applicati…

ctf的php,CTF中常见的PHP漏洞

1.MD5()漏洞php在处理字符串时会利用&#xff01;&#xff0c;||&#xff0c;进行hash值的比较 他把每一个“0E’开头的哈希值都解释为0&#xff0c;因此如果两个不同的密码经过hash处理之后都是以‘0e’开头&#xff0c;那么PHP会认为两者是相同的&#xff0c;南京邮电大学一次…

php ob 缓存,php中ob函数缓冲机制深入理解

下面就php中ob函数缓冲机制通过文字说明加代码分析的形式给大家展示如下&#xff1a;对于一个刚刚入门的php程序员来说&#xff0c;php缓冲区是几乎透明的。在他们心目中&#xff0c;一个echo print_r 函数&#xff0c;数据便会‘嗖的一声飞到浏览器上&#xff0c;显示出来。我…

php极光推送教程,laravel框架使用极光推送消息操作示例

本文实例讲述了laravel框架使用极光推送消息。分享给大家供大家参考&#xff0c;具体如下&#xff1a;最近需要使用极光推送往客户端推消息&#xff0c;所以这里记录下使用过程。极光推送的服务端文档&#xff1a;https://docs.jiguang.cn/jpush/server/push/server_overview/极…

php 强制刷新,web端实现后退强制刷新功能代码

本文主要和大家介绍了微信web端后退强制刷新功能的实现代码,需要的朋友可以参考下&#xff0c;希望能帮助到大家。具体代码如下所示&#xff1a;//生成uuidvar uuidChars "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz".split("");fu…

php强制cookies,php Cookies操作类(附源码)

本cookies操作类的功能&#xff0c;包括&#xff1a;1&#xff0c;保存&#xff0c;读取&#xff0c;更新&#xff0c;清除cookies数据。2&#xff0c;可设置前缀。3&#xff0c;强制超时控制。4&#xff0c;cookies数据可以是字符串&#xff0c;数组&#xff0c;对象等。1&…

php 缩略图 失真,WORDPRESS缩略图失真变形模糊的解决方法

众所周知&#xff0c;网站最怕改版&#xff0c;其中一个主要的原因就是缩略图的问题&#xff0c;旧模板的缩略图尺寸不一定适合新版的模板缩略图尺寸要求&#xff0c;尽管后台的设置-多媒体-缩略图尺寸修改了&#xff0c;可这是新上传的图片才会生成新的尺寸的缩略图&#xff0…

php表单 提交数据,PHP表单提交数据

1.PHP表单处理PHP 超全局变量 $_GET 和 $_POST 用于收集表单数据GET 和 POST 都创建数组(例如&#xff0c;array( key > value, key2 > value2, key3 > value3, ...))。此数组包含键/值对&#xff0c;其中的键是表单控件的名称&#xff0c;而值是来自用户的输入数据。…

binarysearch java,java数据结构之二分查找法 binarySearch的实例

java数据结构之二分查找法 binarySearch的实例折半查找法&#xff0c;前提是已经排好序的数组才可查找实例代码&#xff1a;public class BinarySearch {int[] bArr;public void setArr(int[] bArr){this.bArrbArr;}public static void main(String[] args) {int arrLength16;i…

matlab dotline,基于模糊控制的路径规划算法的仿真实现---Matlab程序.rar

【实例简介】与 本人博客中的课程论文《基于模糊控制的路径规划算法的仿真实现》相配套&#xff0c;可以相互参阅【实例截图】【核心代码】基于模糊控制的路径规划算法的仿真实现---Matlab程序├── fuzzy4│ ├── CheckIsBlocked.asv│ ├── CheckIsBlocked.m│ ├…

php重定义地址栏url,thinkphp框架实现路由重定义简化url访问地址的方法分析

本文实例讲述了thinkphp框架实现路由重定义简化url访问地址的方法。分享给大家供大家参考&#xff0c;具体如下&#xff1a;如果按照正常访问的话&#xff0c;则需要输入一长串的url地址&#xff0c;这样会显得十分冗长&#xff0c;我可以可以通过对路由规则的重新定义简化url访…

php 数组 json字段去不全,json_encode – PHP给出了不完整的json字符串

首先我的环境&#xff1a;PHP 5.3.2 – 使用Suoshin和xCache的lighttpd / 1.4.26我的代码太多了,不能在这里发布.我会说出来的.文件x.php正在加载一些PHP – Classe,初始化它们,执行一些函数 – >获取Result数组.如果我print_r这个数组我得到一个完整的结果.但是我使用json_…

java 判断季节,Java-用switch判断季节

import java.util.*;class Demo3{public static void main(String[] args){//需求 &#xff1a;输入一个月份 &#xff0c;判断月份属于哪一个季节 &#xff1a;春天:3,4,5//夏天 &#xff1a;6&#xff0c;7&#xff0c;8 &#xff0c;秋天:9,10,11 冬天&#xff1a;12&#x…

matlab jp2格式,JP2文件扩展名_JP2是什么格式_JP2文件怎么打开-文件百科

JPEG 2000标准是由联合图像专家组(JPEG)委员会在1990年代后期开发的&#xff0c;以代替1992年发布的JPEG标准。它对JPEG格式进行了一些改进&#xff0c;采用小波压缩算法&#xff0c;不会产生原先的基于离散余弦变换的JPEG标准产生的块状模糊瑕疵。JPEG 2000使用小波变换、画布…

PPT下载下来是php,用php下载jpg,doc,ppt文件已损坏

我试图用php下载一些文件来隐藏文件路径&#xff0c;但是一些文件类型总是被破坏。像PDF和MP3文件类型很好。像doc&#xff0c;PPT&#xff0c;JPG等文件类型总是下载破碎。我使用这些mimetypesif (file_exists($file_real)){$extension strtolower(substr(strrchr($file, &qu…

php安装文档,PHP - Manual: 安装 (官方文档)

安装安装此 PECL 扩展相关的信息可在手册中标题为PECL扩展的安装章节中找到。更多信息如新的发行版本、下载、源文件、维护人员信息及变更日志等&#xff0c;都在此处&#xff1a; https://pecl.php.net/package/cairo.PECL 扩展的DLL 当前不可用。参见在 Windows 上构建章节。…

php mail laravel,邮件 - Laravel - 为 WEB 艺术家创造的 PHP 框架。

邮件配置Laravel的邮件功能构建于流行的SwiftMailer库之上&#xff0c;并提供了简介、高效的API。邮件配置信息在app/config/mail.php文件中&#xff0c;并提供了包含SMTP主机、端口和证书的配置选项&#xff0c;也可以为发送的邮件配置一个全局from(来自)地址。你可以使用任何…

php抓取带帐号密码,PHP实现抓取迅雷VIP账号的方法_PHP

本文实例讲述了PHP实现抓取迅雷VIP账号的方法。分享给大家供大家参考。具体如下&#xff1a;看了Jinn_Wei Python版本的抓取账号&#xff0c;于是顺手写了个PHP版本PS1&#xff1a;代码没经过优化&#xff0c;只实现了基本的功能PS2&#xff1a;代码中使用了SnoopyPS3&#xff…

php输入安全验证漏洞,PHP 输入验证错误漏洞

来源:MLIST链接:https:/3 N x 6/lists.deC w c F K Y x bian.org/debian-lts-announce/2020/10/msg00008.html来源:MISC链接:http://cS | / O ?ve.circl.lu/cve/CH P / 3VE-2020-8184来源:MISC链接:https:/? 2 ( 4/bugs.php.net/buX / d 2 # } Lg.php?id79699来源:FEDORA链…