java实现网页保存_详解Java两种方式简单实现:爬取网页并且保存

对于网络,我一直处于好奇的态度。以前一直想着写个爬虫,但是一拖再拖,懒得实现,感觉这是一个很麻烦的事情,出现个小错误,就要调试很多时间,太浪费时间。

后来一想,既然早早给自己下了保证,就先实现它吧,从简单开始,慢慢增加功能,有时间就实现一个,并且随时优化代码。

下面是我简单实现爬取指定网页,并且保存的简单实现,其实有几种方式可以实现,这里慢慢添加该功能的几种实现方式。

UrlConnection爬取实现

package html;

import java.io.BufferedReader;

import java.io.FileOutputStream;

import java.io.FileWriter;

import java.io.IOException;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.io.OutputStreamWriter;

import java.net.MalformedURLException;

import java.net.URL;

import java.net.URLConnection;

public class Spider {

public static void main(String[] args) {

String filepath = "d:/124.html";

String url_str = "http://www.hao123.com/";

URL url = null;

try {

url = new URL(url_str);

} catch (MalformedURLException e) {

e.printStackTrace();

}

String charset = "utf-8";

int sec_cont = 1000;

try {

URLConnection url_con = url.openConnection();

url_con.setDoOutput(true);

url_con.setReadTimeout(10 * sec_cont);

url_con.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)");

InputStream htm_in = url_con.getInputStream();

String htm_str = InputStream2String(htm_in,charset);

saveHtml(filepath,htm_str);

} catch (IOException e) {

e.printStackTrace();

}

}

/**

* Method: saveHtml

* Description: save String to file

* @param filepath

* file path which need to be saved

* @param str

* string saved

*/

public static void saveHtml(String filepath, String str){

try {

/*@SuppressWarnings("resource")

FileWriter fw = new FileWriter(filepath);

fw.write(str);

fw.flush();*/

OutputStreamWriter outs = new OutputStreamWriter(new FileOutputStream(filepath, true), "utf-8");

outs.write(str);

System.out.print(str);

outs.close();

} catch (IOException e) {

System.out.println("Error at save html...");

e.printStackTrace();

}

}

/**

* Method: InputStream2String

* Description: make InputStream to String

* @param in_st

* inputstream which need to be converted

* @param charset

* encoder of value

* @throws IOException

* if an error occurred

*/

public static String InputStream2String(InputStream in_st,String charset) throws IOException{

BufferedReader buff = new BufferedReader(new InputStreamReader(in_st, charset));

StringBuffer res = new StringBuffer();

String line = "";

while((line = buff.readLine()) != null){

res.append(line);

}

return res.toString();

}

}

实现过程中,爬取的网页的中文乱码问题,是个比较麻烦的事情。

HttpClient爬取实现

HttpClient实现爬取网页时,遇到了很多问题。其一,就是存在两个版本的HttpClient,一个是sun内置的,另一个是apache开源的一个项目,似乎sun内置用的不太多,我也就没有实现,而是采用了apache开源项目(以后说的HttpClient都是指apache的开源版本);其二,在使用HttpClient时,最新的版本已经不同于以前的版本,从HttpClient4.x版本后,导入的包就已经不一样了,从网上找的很多部分都是HttpClient3.x版本的,所以如果使用最新的版本,还是看帮助文件为好。

我用的是Eclipse,需要配置环境导入引用包。

首先,下载HttpClient,地址是:http://hc.apache.org/downloads.cgi,我是用的事HttpClient4.2版本。

然后,解压缩,找到了/lib文件夹下的commons-codec-1.6.jar,commons-logging-1.1.1.jar,httpclient-4.2.5.jar,httpcore-4.2.4.jar(版本号根据下载的版本有所不同,还有其他的jar文件,我这里暂时用不到,所以先导入必须的);

最后,将上面的jar文件,加入classpath中,即右击工程文件 => Bulid Path => Configure Build Path => Add External Jar..,然后添加上面的包就可以了。

还用一种方法就是讲上面的包,直接复制到工程文件夹下的lib文件夹中。

下面是实现代码:

package html;

import java.io.BufferedReader;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.io.OutputStreamWriter;

import org.apache.http.HttpEntity;

import org.apache.http.HttpResponse;

import org.apache.http.client.*;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.impl.client.DefaultHttpClient;

public class SpiderHttpClient {

public static void main(String[] args) throws Exception {

// TODO Auto-generated method stub

String url_str = "http://www.hao123.com";

String charset = "utf-8";

String filepath = "d:/125.html";

HttpClient hc = new DefaultHttpClient();

HttpGet hg = new HttpGet(url_str);

HttpResponse response = hc.execute(hg);

HttpEntity entity = response.getEntity();

InputStream htm_in = null;

if(entity != null){

System.out.println(entity.getContentLength());

htm_in = entity.getContent();

String htm_str = InputStream2String(htm_in,charset);

saveHtml(filepath,htm_str);

}

}

/**

* Method: saveHtml

* Description: save String to file

* @param filepath

* file path which need to be saved

* @param str

* string saved

*/

public static void saveHtml(String filepath, String str){

try {

/*@SuppressWarnings("resource")

FileWriter fw = new FileWriter(filepath);

fw.write(str);

fw.flush();*/

OutputStreamWriter outs = new OutputStreamWriter(new FileOutputStream(filepath, true), "utf-8");

outs.write(str);

outs.close();

} catch (IOException e) {

System.out.println("Error at save html...");

e.printStackTrace();

}

}

/**

* Method: InputStream2String

* Description: make InputStream to String

* @param in_st

* inputstream which need to be converted

* @param charset

* encoder of value

* @throws IOException

* if an error occurred

*/

public static String InputStream2String(InputStream in_st,String charset) throws IOException{

BufferedReader buff = new BufferedReader(new InputStreamReader(in_st, charset));

StringBuffer res = new StringBuffer();

String line = "";

while((line = buff.readLine()) != null){

res.append(line);

}

return res.toString();

}

}

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/307032.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一个.NET Core下的开源插件框架Pluginfactory

插件模式历史悠久,各种中大型软件基本上都会实现插件机制,以此支持功能扩展,从开发部署层面,插件机制也可实现功能解耦,对于并行开发、项目部署、功能定制等都有比较大的优势。在.NET Core下,一般我们基于.…

activemq和mysql_activeMQ 填坑记

前言MQ是现在大型系统架构中必不可少的一个重要中间件,之前有偏文章《MQ(消息队列)常见的应用场景解析》介绍过MQ的应用场景,现在流行的几个MQ是rabbitmq,rocketma,kafka,这几个MQ比较最容易找到相关的文章,而也有些系统使用的是activemq&…

谈谈.NET Core IServiceProvider

【导读】最近重构部分代码,因历史原因在静态类中需使用注入实例,构造函数注入则不再可取,此时只能构造全局IServiceProvider,所以本文稍微分析下IServiceProvider要构造全局使用IServiceProvider,我们都知道不能在Conf…

c++向mysql通信_C++连接MySQL

C连接mysql有2种方法:利用ADO连接、利用mysql自己的api函数进行连接,下面看看如何用吧。第一种方法可以实现我当前的需求,通过连接不同的字符串来连接不同的数据库。暂时只连接了mysql,sqlserver,oracle,access。对于access,因为它…

使用 Xunit.DependencyInjection 改造测试项目

使用 Xunit.DependencyInjection 改造测试项目Intro这篇文章拖了很长时间没写,之前也有介绍过 Xunit.DependencyInjection 这个项目,这个项目是由大师写的一个 Xunit 基于微软 GenericHost 和 依赖注入实现的一个扩展库,可以让你更方便更容易…

discuz mysql data_Discuz!显示 Database Error的原因和解决方法

今天打开Discuz搭建的论坛显示:原因一:数据库表太大比如mysql数据库的表内容太大,超过10G就有可能会影响discuz论坛的运行。Discuz! Database Error是什么原因,怎么修复这种情况可以通过对数据库分表的方法来解决。原因二&#xf…

项目开发中经常有一些被嫌弃的小数据,现在全丢给 FastDFS

在我们开发项目的时候,经常会遇到大块数据的问题(2M-100M),比如说保存报表中1w个人的ID号,说实话,这些数据存储在服务器哪里都被嫌弃,放在redis,mongodb中吧,一下子你就会…

java 反射 int_Java 反射由浅入深 | 进阶必备

原标题:Java 反射由浅入深 | 进阶必备一、Java 反射机制参考了许多博文,总结了以下个人观点,若有不妥还望指正:Java 反射机制在程序运行时,对于任意一个类,都能够知道这个类的所有属性和方法;对…

寻找性能更优秀的不可变小字典

Dictionary 是一个很常用的键值对管理数据结构。但是在性能要求严苛的情况下,字典的查找速度并不高。所以,我们需要更快的方案。需求说明 这里,我们需要一个 PropertyInfo 和委托对应的映射关系,这样我们就可以存储《寻找性能更优…

java 8 stream 性能_java8中parallelStream性能测试及结果分析

测试1BenchmarkMode(Mode.AverageTime)OutputTimeUnit(TimeUnit.NANOSECONDS)Warmup(iterations 5, time 3, timeUnit TimeUnit.SECONDS)Measurement(iterations 20, time 3, timeUnit TimeUnit.SECONDS)Fork(1)State(Scope.Benchmark)public class StreamBenchTest {Lis…

一款基于.NET Core的认证授权解决方案-葫芦藤1.0开源啦

背景18年公司准备在技术上进行转型,而公司技术团队是互相独立的,新技术的推动阻力很大。我们需要找到一个切入点。公司的项目很多,而各个系统之间又不互通,导致每套系统都有一套登录体系,给员工和客户都带来极大的不便…

java pc计数器_java虚拟机-程序计数器PC Register

什么是程序计数器?程序计数器是一块 较小 的内存空间,它可以看做是当前线程所执行的字节码的 行号指示器 ;在虚拟机的概念模型里(仅仅是概念模型,各种虚拟机可能会通过一些更高效的方式去实现),字节码解释器工作时&…

.NET架构小技巧(8)——优待异常

天有不测风云,人有旦夕祸福,程序呢——会有异常错误。C#中用try,catch,finally来捕捉处理异常,捕捉谁的异常呢?一般都是系统类库或三方类库中抛出的异常,那如果我自己架构程序,异常也…

跟我一起学.NetCore之EF Core 实战入门,一看就会

前言还记得当初学习数据库操作时,用ADO.NET一步一步地进行数据操作及查询,对于查询到的数据还得对其进行解析,然后封装返回给应用层;遇到这种重复而繁琐的工作,总有一些大神或团队对其进行封装,从而出现了很…

java 声明变量构成_Java—变量

1.1 按数据类型分类1.1.1 基本数据类型(四类八种)☛ 引用数据类型的特点存的是地址值,可以为null值☛ 基本数据类型的特点存的是具体的值,不可以是null值☛ 整型整型取值范围字节数byte(字节)-128 ~ 1271byteshort(短整型)-2byteint(默认整型)-4bytelong(长整型)12345678L8byte…

寻找性能更优秀的动态 Getter 和 Setter 方案

反射获取 PropertyInfo 可以对对象的属性值进行读取或者写入&#xff0c;但是这样性能不好。所以&#xff0c;我们需要更快的方案。方案说明 就是用表达式编译一个Action<TObj,TValue>作为 Setter&#xff0c;编译一个Func<TObj,TValue>作为 Getter。然后把这些编译…

java中什么是同步_Java中,“synchronized”(同步)是什么意思?什么时候应该用synchronized? - Break易站...

synchronized关键字的意义是什么&#xff1f;什么时候应该是方法synchronized&#xff1f;这是什么编程和逻辑&#xff1f;Java中&#xff0c;“synchronized”(同步)是什么意思&#xff1f;什么时候应该用synchronized&#xff1f;该synchronized关键字是所有不同的线程读取和…

Newbe.ObjectVisitor 0.2.10 发布,更花里胡哨

更新内容 现在&#xff0c;你可以通过上下文修改属性的值了&#xff1a;//✔️ from 0.2 // 可以修改属性 o.V().ForEach((context) > ModifyData(context)).Run();public static void ModifyData(IObjectVisitorContext<Yueluo,string> context) {context.Value con…

java获取jsp对象的属性_java-从jsp el中的对象获取布尔属性

好.我真笨.否决这个问题,嘲笑我,等等.问题出在isAdmin()委托给的方法中.该方法中存在一个空指针异常.但是,在我的辩护中,我会说我所得到的堆栈跟踪有点不清楚,并使其看起来像是EL问题,而不是代码中的简单空指针.醋,您可以保证即使没有属性,isAdmin()仍能正常工作,这确实帮助我解…

.NET 5 和 C#9 /F#5 一起到来, 向实现 .NET 统一迈出了一大步

经过一年多的开发&#xff0c;Microsoft 于北京时间 11 月 11 日&#xff08;星期三&#xff09;发布了其 .NET 5软件开发平台&#xff0c;强调平台的统一&#xff0c;并引入了 C# 9 和 F# 5 编程语言&#xff0c;新平台朝着桌面、Web、移动、云和 IoT 目标统一 .NET 开发体验的…