1、测试代码
import java.io.File; import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; public class Test { public static void main(String[] args) { Test t = new Test(); t.parseUrl(); } public void parseUrl() { try { Document doc = Jsoup.connect("http://www.baidu.com/").get(); Elements hrefs = doc.select("a[href]"); System.out.println(hrefs); System.out.println("------------------"); System.out.println(hrefs.select("[href^=http]")); } catch (IOException e) { e.printStackTrace(); } } }
2、编译及执行
- javac -cp jsoup-1.7.1.jar:. Test.java
- java -cp jsoup-1.7.1.jar:. Test
3、测试结果
- <a href="http://www.baidu.com/gaoji/preferences.html" name="tj_setting">搜索设置</a>
- <a href="https://passport.baidu.com/v2/?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F" name="tj_login" id="lb" οnclick="return false;">登录</a>
- <a href="https://passport.baidu.com/v2/?reg&regType=1&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F" target="_blank" name="tj_reg" class="reg">注册</a>
- <a href="http://news.baidu.com">新 闻</a>
- <a href="http://tieba.baidu.com">贴 吧</a>
- <a href="http://zhidao.baidu.com">知 道</a>
- <a href="http://music.baidu.com">音 乐</a>
- <a href="http://image.baidu.com">图 片</a>
- <a href="http://video.baidu.com">视 频</a>
- <a href="http://map.baidu.com">地 图</a>
- <a href="#" name="ime_hw">手写</a>
- <a href="#" name="ime_py">拼音</a>
- <a href="#" name="ime_cl">关闭</a>
- <a href="http://baike.baidu.com">百科</a>
- <a href="http://wenku.baidu.com">文库</a>
- <a href="http://www.hao123.com">hao123</a>
- <a href="http://www.baidu.com/more/">更多>></a>
- <a id="seth" οnclick="h(this)" href="/" οnmοusedοwn="return ns_c({'fm':'behs','tab':'homepage','pos':0})">把百度设为主页</a>
- <a id="setf" href="http://www.baidu.com/cache/sethelp/index.html" οnmοusedοwn="return ns_c({'fm':'behs','tab':'favorites','pos':0})" target="_blank">把百度设为主页</a>
- <a href="http://www.baidu.com/search/baidukuaijie_mp.html" target="_blank" οnmοusedοwn="return ns_c({'fm':'behs','tab':'kuaijie','pos':1})">把百度添加到桌面</a>
- <a href="http://e.baidu.com/?refer=888" οnmοusedοwn="return ns_c({'fm':'behs','tab':'btlink','pos':2})">加入百度推广</a>
- <a href="http://top.baidu.com">搜索风云榜</a>
- <a href="http://home.baidu.com">关于百度</a>
- <a href="http://ir.baidu.com">About Baidu</a>
- <a href="/duty/">使用百度前必读</a>
- <a href="http://www.miibeian.gov.cn" target="_blank">京ICP证030173号</a>
- ------------------
- <a href="http://www.baidu.com/gaoji/preferences.html" name="tj_setting">搜索设置</a>
- <a href="https://passport.baidu.com/v2/?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F" name="tj_login" id="lb" οnclick="return false;">登录</a>
- <a href="https://passport.baidu.com/v2/?reg&regType=1&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F" target="_blank" name="tj_reg" class="reg">注册</a>
- <a href="http://news.baidu.com">新 闻</a>
- <a href="http://tieba.baidu.com">贴 吧</a>
- <a href="http://zhidao.baidu.com">知 道</a>
- <a href="http://music.baidu.com">音 乐</a>
- <a href="http://image.baidu.com">图 片</a>
- <a href="http://video.baidu.com">视 频</a>
- <a href="http://map.baidu.com">地 图</a>
- <a href="http://baike.baidu.com">百科</a>
- <a href="http://wenku.baidu.com">文库</a>
- <a href="http://www.hao123.com">hao123</a>
- <a href="http://www.baidu.com/more/">更多>></a>
- <a id="setf" href="http://www.baidu.com/cache/sethelp/index.html" οnmοusedοwn="return ns_c({'fm':'behs','tab':'favorites','pos':0})" target="_blank">把百度设为主页</a>
- <a href="http://www.baidu.com/search/baidukuaijie_mp.html" target="_blank" οnmοusedοwn="return ns_c({'fm':'behs','tab':'kuaijie','pos':1})">把百度添加到桌面</a>
- <a href="http://e.baidu.com/?refer=888" οnmοusedοwn="return ns_c({'fm':'behs','tab':'btlink','pos':2})">加入百度推广</a>
- <a href="http://top.baidu.com">搜索风云榜</a>
- <a href="http://home.baidu.com">关于百度</a>
- <a href="http://ir.baidu.com">About Baidu</a>
- <a href="http://www.miibeian.gov.cn" target="_blank">京ICP证030173号</a>