java获取网页源代码后,提取标签内容……
关注:245 答案:2 mip版
解决时间 2021-02-01 09:11
提问者咏bù琂败
2021-01-31 13:49
import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import java.net.HttpURLConnection;
import java.net.URL;
public class Getjson
{
public static void main(String []args)
{
String htmpath = null;
BufferedReader in = null;
InputStreamReader isr = null;
InputStream is = null;
PrintWriter pw = null;
HttpURLConnection huc = null;
String [] arr = new String[2];
arr[0]= "view-source:http://baike.baidu.com/view/61891.htm";
arr[1] = "view-source:http://baike.baidu.com/view/61891.htm";
for(int i=0;i<2;i++)
{
try {
htmpath = "d:\\test\\10"+i+".txt";
pw = new PrintWriter(htmpath);
URL url = new URL(arr[i]); //创建 URL
huc = (HttpURLConnection) url.openConnection();
is = huc.getInputStream();
isr = new InputStreamReader(is);
in = new BufferedReader(isr);
String line = null;
while (((line = in.readLine()) != null)) {
if (line.length() == 0)
continue;
pw.println(line);
}
}
catch (Exception e) {
System.err.println(e);
} finally { //无论如何都要关闭流
try {
is.close();
isr.close();
in.close();
huc.disconnect();
pw.close();
} catch (Exception e) {
}
}
}
}
}上面的可以提取网页源代码
但是我想知道怎么先用正则表达式,提取
标签的内容后,再写入.txt文本中。谢谢各位大侠
url写错了,应该是http://baike.baidu.com/view/61891.htm,提取出来的网页源代码好还是乱码
最佳答案
二级知识专家你可以浪但我不會等
2021-01-31 14:47
你可以去看看 Jsoup
全部回答
1楼是你的阿离
2021-01-31 16:13
同问。。。
我要举报
如果感觉以上信息为低俗/不良/侵权的信息,可以点下面链接进行举报,我们会做出相应处理,感谢你的支持!
点此我要举报以上信息!
推荐资讯
大家都在看