java爬虫新闻网站_java爬虫 之 搜狐新闻爬虫(一)

最近开始学习java爬虫,网上很多教程,自己找的时候花了好久的时间去理解别人的思路。

打算将自己最近的学习进度稍作整理,理清思路。

主要工具使用jsoup:具体用法看http://blog.csdn.net/u012315428/article/details/51135640

下面是获取一个网页中所有的超链接:

package com.sohu;

import org.jsoup.Jsoup;

import java.io.IOException;

import java.util.*;

import org.jsoup.*;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

/*

* author :cj

* 找到所有的超链接

*/

public class FindAllUrl {

public static void main(String[] args) {

// TODO Auto-generated method stub

try {

Document doc = Jsoup.connect("http://news.sohu.com/").get();

Elements links = doc.select("a[href]");

for(Element link : links){

String StrUrl = link.attr("abs:href");

if(StrUrl.startsWith("http://news.sohu.com/"))//以。。。开头的url

System.out.println(StrUrl);

}

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

}

}

运行结果 http://news.sohu.com/ http://news.sohu.com/mindiao/ http://news.sohu.com/scroll/ http://news.sohu.com/mindiao/ http://news.sohu.com/special.shtml http://news.sohu.com/guoneixinwen.shtml http://news.sohu.com/shehuixinwen.shtml http://news.sohu.com/guojixinwen.shtml http://news.sohu.com/matrix/ http://news.sohu.com/newsmaker_list/ http://news.sohu.com/photo/ http://news.sohu.com/wurenji/ http://news.sohu.com/# http://news.sohu.com/# http://news.sohu.com/# http://news.sohu.com/20160414/n444127123.shtml http://news.sohu.com/20160414/n444127800.shtml http://news.sohu.com/20160414/n444193395.shtml http://news.sohu.com/20160414/n444148450.shtml http://news.sohu.com/20160414/n444133304.shtml http://news.sohu.com/20160414/n444199124.shtml http://news.sohu.com/20160413/n444107224.shtml http://news.sohu.com/20160414/n444127800.shtml http://news.sohu.com/20160413/n444105842.shtml http://news.sohu.com/20160414/n444140620.shtml http://news.sohu.com/20160414/n444126073.shtml http://news.sohu.com/20160413/n444086783.shtml http://news.sohu.com/20160414/n444187234.shtml http://news.sohu.com/20160414/n444193015.shtml http://news.sohu.com/20160414/n444207393.shtml http://news.sohu.com/20160414/n444148450.shtml http://news.sohu.com/20160414/n444193395.shtml

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/360177.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

easyui源码翻译1.32--ValidateBox(验证框)

前言 使用$.fn.validatebox.defaults重写默认值对象。下载该插件翻译源码 validatebox(验证框)的设计目的是为了验证输入的表单字段是否有效。如果用户输入了无效的值,它将会更改输入框的背景颜色,并且显示警告图标和提示信息。该验证框可以结合form(表单…

java静态方法获取对象_JavaPowerMockito模拟单个静态方法和返回对象

小编典典你想要做的是1的一部分和2的全部的组合。你需要使用PowerMockito.mockStatic为类的所有静态方法启用静态模拟。这意味着可以使用when-thenReturn语法对它们进行存根。但是,当你调用尚未在模拟实例上显式存根的方法时,你正在使用的2个参数的mathS…

从战中反弹:将Git提交信息作为JSON返回

在某些情况下,我们必须知道部署到远程服务器的Web应用程序的确切版本。 例如,客户可能想知道我们是否已经在服务器X上部署了错误修复程序。 当然,我们可以尝试使用“传统”方法找到该问题的答案。 问题是: 没有人不记得是谁更新…

在论坛中出现的各种疑难问题:日志收缩问题

最近,在论坛中,遇到了不少疑难的问题,在此特别记录,同时也感谢发帖人的分享、以及其他网友的热心回答。 1、日志暴大,无法收缩,谁来挑战一下! http://bbs.csdn.net/topics/390674731?page1#pos…

学java前要学css_教你一招:学习Java必须学会的CSS用法

一:CSS概述什么是CSSCSS就是层叠样式表(Casading Style Sheets),通常称为CSS样式表,或者是级联样式表。主要用于设置HTML中的文本,内容(字体,大小,对齐),图片外形(宽高,边框样式&…

标准I/O库之缓冲

标准I/O库提供缓冲的目的是尽可能减少使用read和write调用的次数。它也对每个I/O流自动地进行缓冲管理,从而避免了应用程序需要考虑这一点所带来的麻烦。 标准I/O提供了三种类型的缓冲: (1)全缓冲。这种情况下,在填满标…

java如何写安卓接口文档_android、java制作sdk以及自动生成文档

最近一直在做android开发,昨天经理让我写个接口SDK做个接口文档,以便后面的开发。这让我很焦灼,SDK怎么做?要是只有敲代码还好。可是那个接口文档!!!文档这东西最讨厌了,头都大了后来…

[转载]jquery cookie的用法

原文地址:http://www.cnblogs.com/qiantuwuliang/archive/2009/07/19/1526663.html jQuery cookie是个很好的cookie插件,大概的使用方法如下 example $.cookie(’name’, ‘value’); 设置cookie的值,把name变量的值设为value example $.cookie(’name’…

21世纪的设计模式:抽象工厂模式

这是我的演讲的第二部分,“ 21世纪的设计模式” 。 此模式在Java代码中到处都有使用,尤其是在更多“企业”代码库中。 它涉及一个接口和一个实现。 该界面如下所示: public interface Bakery {Pastry bakePastry(Topping topping);Cake bak…

java textfield类方法_java.awt.TextField类

java.awt.TextField是一个文本框组件1.构造方法TextField():创建一个默认长度为一个机器字符长的文本框TextField(int n):创建一个指定长度为n个机器字符长的文本框TextField(String s):创建一个文本框,该文本框的初始字符串为sTe…

广东金融学院java实验报告_《大学计算机Ⅰ》实验报告实验三

广东金融学院实验报告课程名称:大学计算机Ⅰ实验编号 及实验名称 姓 名 实验地点 指导教师蔡文璇 12-204课室 伍春晖博士实验三 中文Excel 2007实验系 别 班 级 实验时数 成 绩财经传媒系 经济秘书(2)班6学 号 实验日期 同组其他成员111602242 2011年 12 月07 日无一…

Markdown会干掉Html吗?

Markdown会干掉Html吗? 很明显,MarkDown正在已一种比病毒还快的速度传播着,量子的机器人语言也是深受其启发,当然了,在这个东西没搞出来之前,MarkDown就能干很多事情,比如在线编辑。 有了它&…

java动态变量名反射_Java动态性—反射 - Eclipse666的个人空间 - OSCHINA - 中文开源技术交流社区...

1.什么是动态语言?程序运行时,可以改变程序的结构或者变量类型;如Python,javaScriptfunction(){var s"var a3;var b4;" evals(s);}在执行javascript代码的的过程中,可以改变变量的值或插入语句改变结构。但J…

java中的module是什么意思_Angular - 组件中module.id的含义是什么?

Update for (2017-03-13) :删除了所有提及的moduleId . “组件相对路径”cookbook已删除我们在我们推荐的SystemJS配置中添加了一个新的SystemJS插件(systemjs-angular-loader.js) . 此插件动态地将templateUrl和styleUrls中的“组件相对”路径转换为“绝对路径” .…

HTML跳转

Window.location.href"http://www.baidu.com/"转载于:https://www.cnblogs.com/hucaihao/p/3514165.html

Spring注释,我从来没有机会使用第1部分:@primary

今天,我想起了我的一个老朋友(primary),我们从教程到教程都遇到了他。 您知道在Spring Autowired批注中按类型工作,也就是说,如果Spring找到符合类型的匹配的合格bean,则会将其注入。让我们在示…

mysql构建栋_【转载】这次拆库 应是微服务化的拆分方式

一、现状现状.png我们将一个大而全的系统一拆为三,容器,发布,测试都已经独立出去,但是原始的数据库还是一套,现在需要将数据库做一个拆分,A、B、C三个系统有各自的数据库之后,我们的微服务化在现…

使用SharePoint 2010新增的文档集内容类型来管理文档

使用SharePoint 2010新增的文档集内容类型来管理文档 SharePoint 2010新增加的文档集功能是作为内容类型存在的,使用范围在网站集中,需要激活“文档集”功能到网站集才可以正常使用。文档集其实就是一个SharePoint产品增强的文件夹和内容类型的综合体现。…

如何使用Java 8流快速替换列表中的元素

假设您有一个项目清单&#xff1a; List<String> books Arrays.asList("The Holy Cow: The Bovine Testament","True Hip Hop","Truth and Existence","The Big Book of Green Design" );&#xff08;不要判断我。此随机书生成…

db2和mysql性能优化_DB2数据库性能调优的十个办法

这篇文章主要是针对e-business OLTP的10个性能方面的Tips。10. Monitor Switches打开Monitor Switch,才能获得性能方面的信息,命令如下db2 "update monitor switches using lock ON sort ON bufferpool ON uow ON table ON statement ON"9. Agents要保证有足够的agen…