项目运行部署:
首先导入项目MyHeritrix
- 然后把jar包加到项目中
- 运行类Heritrix
- 访问地址http://localhost:8080/index.jsp
- 创建一个job
6.然后写name和你自己的url
7.然后修改modules,只需要修改select writes和select post processors
后面导入第二个程序Preprocess
对学院网站进行抓取、建索、排序、搜索、摘要显示。是Web界面。
首先利用httpclient+多线程去模拟客户端去进行获取网页的内容,然后采用jsoup+多线程来进行解析网页内容并存储本地
项目主要使用技术
Httplcient、Jsoup、多线程、Lucene、、IKAnanyzer数据库dao模式、Javascript /jQuery
Bootstrip、和web网页技术等实现
这是从网页抓取数据,数据量比较大、一般建议从第一天晚上开始爬取!也可以在代码中加入其它的过滤条件、让爬取的文件小一点、最后保存在本地运行程序main方法建立索引
运行Java程序 启动Tomcat 访问页面输入关键字就可以进行搜索