Java网络爬虫实操(8)

上一篇:Java网络爬虫实操(7)

大家好,本篇文章介绍一下NetDiscovery爬虫框架里的downloader对象

1) 前言

面向对象设计仍然是目前编程的核心思想,从下面截图可以了解爬虫框架的主要对象:

程序在本地组织好一个request后,交给downloader从网络上抓取数据到本地,然后由parser处理本地的这些数据,最终生成可用的信息。

2) downloader介绍

downloader我们也称为下载器,主要功能就是访问网络并成功抓回我们要的数据:例如html网页、json/xml数据、二进制流(图片、office文档等) 目前NetDiscovery支持的downloader实现有:

面向接口编程是这个框架的重要设计思想之一。

以下介绍部分downloader代码,这些代码的共同点是实现了Downloader接口。

作为程序开发者,你也可以实现接口com.cv4j.netdiscovery.core.downloader.Downloader,创建自己的下载器类。

  • UrlConnectionDownloader 这个用的是jdk自带的包,java.io、java.net
//1、构建一个URL对象
url = new URL(request.getUrl());
//2、获取一个HttpURLConnection对象
conn = url.openConnection();
//3、一堆设置
conn .setDoOutput(true);
conn .setDoInput(true);
conn .setRequestMethod("POST");
......
//4、访问网络服务
conn.connect();
//5、执行成功的话,获取结果
conn.getResponseCode();
conn.getInputStream();
复制代码
  • HttpClientDownloader 这个是用开源包apache httpclient实现的,代码就更加简洁优雅了。
//1、获取一个HttpManager对象(框架自己封装的)
HttpManager httpManager = HttpManager.get();
//2、然后把request扔进去,等结果就可以了.request也是框架封装的
httpManager.getResponse(request)
//3、等来结果后,进行处理@Overridepublic Response apply(CloseableHttpResponse closeableHttpResponse) throws Exception {String charset = null;if (Preconditions.isNotBlank(request.getCharset())) {charset = request.getCharset();  //针对一些还是GB2312编码的网页} else {charset = "UTF-8";}String html = EntityUtils.toString(closeableHttpResponse.getEntity(), charset);Response response = new Response();response.setContent(html.getBytes());response.setStatusCode(closeableHttpResponse.getStatusLine().getStatusCode());if (closeableHttpResponse.containsHeader("Content-Type")) {response.setContentType(closeableHttpResponse.getFirstHeader("Content-Type").getValue());}return response;}
复制代码
  • VertxDownloader等类大家有需要都可以去了解一下。

3) 总结

总之,爬虫程序本质上是一个网络程序,网络程序的核心模块离不开对网络数据的处理。建议学习爬虫的伙伴们,要看源代码的话,可以先从框架中的downloader相关代码开始了解。相信一定会有收获的。

下一篇:Java网络爬虫实操(9)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/278292.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Pycharm下将py文件打包成exe文件

1. 在PyCharm下安装PyInstaller 1. 首先,打开自己要发布的工程 2. 点击底部的【Terminal】打开终端,中输入命令pip install pyinstaller后回车,如图所示进行安装 3. 输入命令 pyinstaller,回车显示安装成功 4. 输入命令 pyinstall…

什么是自然语言处理,它如何工作?

NicoElNino/Shutterstock.comNicoElNino / Shutterstock.comNatural language processing enables computers to process what we’re saying into commands that it can execute. Find out how the basics of how it works, and how it’s being used to improve our lives. 自…

GIT速查手册

为什么80%的码农都做不了架构师?>>> 一、GIT 1.1 简单配置 git是版本控制系统,与svn不同的是git是分布式,svn是集中式 配置文件位置 # 配置文件 .git/config 当前仓库的配置文件 ~/.gitconfig 全局配置文件# 查看所有配置项 git …

4-3逻辑非运算符及案例 4-4

创建类 LoginDemo3 这里取反 !(n%30) package com.imooc.operator; import java.util.Scanner;public class LoginDemo3 {public static void main(String[] args) {// TODO Auto-generated method stubSystem.out.println("请输入一个整数");Scanner scnew Scanner(…

assistant字体_如何使用Google Assistant设置和致电家庭联系人

assistant字体Google谷歌Google Home and Nest smart speakers and displays allow you to make calls without using your phone. By setting up “Household Contacts,” anyone in your home can easily call friends and family members with Google Assistant-enabled dev…

php队列使用

由于项目中在修改产品的同时要同步关联水单,删单,客保 等等数据。所以不可能等待所有都执行完毕以后再给客户端反馈。所以自己用写了个队列。在这里晒出来代码,以供大家参考。(项目中用到的是tp,所以在这里用tp作为演示) 思路 1,需要用到队列…

Accoridion折叠面板

详细操作见代码&#xff1a; <!doctype html> <html><head><meta charset"UTF-8"><title></title><meta name"viewport" content"widthdevice-width,initial-scale1,minimum-scale1,maximum-scale1,user-scal…

skype快捷键_每个Skype键盘快捷键及其用法

skype快捷键Roberto Ricca/Shutterstock罗伯托里卡/ ShutterstockGet familiar with Skype’s unique keyboard shortcuts that will allow you to quickly change your settings, alter your interface, and control your communications. Use these hotkeys and become a Sky…

习惯需要坚持

近期会把本地的资料上传分享出来&#xff0c;好久没更新自己的内容了&#xff0c;以后会不断的更新哦。转载于:https://blog.51cto.com/haohao1010/2087494

YouTube键盘快捷键:速查表

Google’s video website wouldn’t be complete without all sorts of useful buttons and hidden commands that aren’t immediately obvious. Use this hotkey cheat sheet to quickly navigate YouTube and gain better control over your video browsing experience. 如果…

第五章 课本题目

例 5.1 使用单分支条件结构输出两个数的最大值。 #include<stdio.h> int main() { int a,b,max; scanf("%d,%d",&a,&b); if(a>b) maxa; if(a<b) maxb; printf("max%d\n",max); return 0; } 例 5.2 用双分支条件语句求最大值。 #includ…

MySQL服务读取参数文件my.cnf的规律研究探索

在MySQL中&#xff0c;它是按什么顺序或规律去读取my.cnf配置文件的呢&#xff1f;其实只要你花一点功夫&#xff0c;实验测试一下就能弄清楚&#xff0c;下面的实验环境为5.7.21 MySQL Community Server。其它版本如有不同&#xff0c;请以实际情况为准。 其实&#xff0c;MyS…

将组策略编辑器添加到控制面板

If you find yourself using the Group Policy Editor all the time, you might have wondered why it doesn’t show up in the Control Panel along with all the other tools. After many hours of registry hacking, I’ve come up with a registry tweak to let you do ju…

cookies和session区别

cookies和session区别 1、Cookie和Session都是会话技术&#xff0c;Cookie是运行在客户端&#xff0c;Session是运行在服务器端。 2、Cookie有大小限制以及浏览器在存cookie的个数也有限制&#xff0c;Session是没有大小限制和服务器的内存大小有关。3、Cookie有安全隐患&#…

Exchange Server 2016管理系列课件50.DAG管理之激活数据库副本

激活邮箱数据库副本是将特定被动副本指定为邮箱数据库的新主动副本的过程。我们将此过程称为数据库切换。数据库切换过程是指卸除当前的活动数据库&#xff0c;然后在指定的服务器上将相应的数据库副本作为新的活动邮箱数据库副本进行装载。成为活动邮箱数据库的数据库副本必须…

常见设计模式 (python代码实现)

1.创建型模式 单例模式 单例模式&#xff08;Singleton Pattern&#xff09;是一种常用的软件设计模式&#xff0c;该模式的主要目的是确保某一个类只有一个实例存在。当你希望在整个系统中&#xff0c;某个类只能出现一个实例时&#xff0c;单例对象就能派上用场。 比如&#…

记录一次解决httpcline请求https报handshake_failure错误

概述 当使用httpclinet发起https请求时报如下错误&#xff1a; javax.net.ssl.SSLHandshakeException: Received fatal alert: handshake_failureat com.sun.net.ssl.internal.ssl.Alerts.getSSLException(Alerts.java:174)at com.sun.net.ssl.internal.ssl.Alerts.getSSLExcep…

桌面程序explorer_备份Internet Explorer 7搜索提供程序列表

桌面程序explorerIf you are both an IE user and a fan of using custom search providers in your search box, you might be interested to know how you can back up that list and/or restore it on another computer. Yes, this article is boring, but we’re trying to…

C++内联函数(inline function)

c从c中继承的一个重要特征就是效率。假如c的效率明显低于c的效率&#xff0c;那么就会有很大的一批程序员不去使用c了。 在c中我们经常把一些短并且执行频繁的计算写成宏&#xff0c;而不是函数&#xff0c;这样做的理由是为了执行效率&#xff0c;宏可以避免函数调用的开销&am…

GreenPlum数据库故障恢复测试

本文介绍gpdb的master故障及恢复测试以及segment故障恢复测试。 环境介绍&#xff1a;Gpdb版本&#xff1a;5.5.0 二进制版本操作系统版本&#xff1a; centos linux 7.0Master segment: 192.168.1.225/24 hostname: mfsmasterStadnby segemnt: 192.168.1.227/24 hostname: ser…