爬虫源代码

public class Spider implements Runnable {private ArrayList urls; //URL列表private HashMap indexedURLs; //已经检索过的URL列表private int threads ; //初始化线程数    public static void main(String argv[]) throws Exception {if(argv[0] == null){System.out.println("Missing required argument: [Sit URL]");return ;}Spider Spider = new Spider(argv[0]);Spider.go();}public Spider(String strURL) {urls    = new ArrayList();threads = 10;urls.add(strURL);threadList = new ArrayList();indexedURLs = new HashMap();if (urls.size() == 0)throw new IllegalArgumentException("Missing required argument: -u [start url]");if (threads < 1)("Invalid number of threads: " +threads);}public void go(String strURL) throws Exception {// index each entry point URLlong start = System.currentTimeMillis();for (int i = 0; i < threads; i++) {Thread t = new Thread(this, "Spide " + (i+1));t.start();threadList.add(t);}while (threadList.size() >; 0) {Thread child = (Thread)threadList.remove(0);child.join();}long elapsed = System.currentTimeMillis() - start;}public void run() {String url;try {while ((url = dequeueURL()) != null) {indexURL(url);}}catch(Exception e) {logger.info(e.getMessage());}        }//检测URL列表容器中有没有URL没有被解析,如果有则返回URL由线程继续执行public synchronized String dequeueURL() throws Exception {while (true) {if (urls.size() >; 0) {return (String)urls.remove(0);}else {threads--;if (threads >; 0) {wait();threads++;}else {notifyAll();return null;}}}}/** 添加URL和当前URL的级数，并唤醒睡眠线程     */public synchronized void enqueueURL(String url,int level) {if (indexedURLs.get(url) == null) {urls.add(url);indexedURLs.put(url, new Integer(level));notifyAll();}}/*** 通过URL解析出网页内容并解析出页面上的URL* @param url 页面链接* @throws java.lang.Exception*/private void indexURL(String url) throws Exception {boolean flag = true ;//判断网页链接的级别，系统默认为三级int level = 1 ;if (indexedURLs.get(url) == null) {indexedURLs.put(url, new Integer(level));}else{level = ((Integer)indexedURLs.get(url)).intValue();//只检测到页面的第二级if(level >; 2 )return ;level++ ;}String strBody = null ;try{//解析页面内容strBody = loadURL(url);}catch(Exception e){return ;}if (strBody != null) {String urlGroups[] = null ;try{//解析出页面所以URLurlGroups = parseURLs(summary);}catch(Exception e){logger.info(e.getMessage());}if(urlGroups == null)urlGroups = new String[0] ;strBody = null ;for (int i = 0; i < urlGroups.length; i++) {enqueueURL(urlGroups[i],level);}}}

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/188740.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

爬虫源代码

相关文章

【SA8295P 源码分析】136 - QNX 如何抓取系统 log 方法之网络部分日志抓取方法

【Node.js后端架构：MVC模式】基于expres讲解

21、LED点阵屏显示图形动画

JS事件循环详解

二次元检测设备导轨修复指南

基于Java SSM移动电源租赁系统

Linux删除了大文件为什么磁盘空间没有释放？

Android 7.1 点击清空全部按钮清空一切运行进程（包括后台在播音乐）

SDX12 上层应用gdb调试及环境搭建

6.1810: Operating System Engineering ＜Lab2 syscall: System calls＞

temu上新待确认在哪里点

pathlib --- 面向对象的文件系统路径

k8s部署jenkins

机器学习ROC曲线中的阈值thresholds

Mac右键添加通过VSCode打开

KaiwuDB 多模数据库-时序性能优化

树莓派3B+ PCB叠层设计

【SA8295P 源码分析 (四)】136 - QNX 如何抓取系统 log 方法之网络部分日志抓取方法

c语言练习13周（1~5）

小米智能摄像头mp4多碎片手工恢复案例