之前做了一个频道抓取:获取div
Elements div_e;div_e = doc.select("div");Iterator<Element> div_it = div_e.iterator();while (div_it.hasNext()) {处理逻辑}
我是想通过select div块然后去遍历获取div里的内容,但是发现有的新闻网址频道抽取不了,发现它的div是嵌套在body或者是其它标签当中。
如:
常见情况:
- div1
- div2
- ul
- a
- ul
- div2
这种可以获取到a标签里面的内容
- div1
- body
- ul
- a
- div2
- ul
- body
这种情况找不到a标签里的内容