头歌:旅游网站大数据分析 - 数据抓取

package step1;
import java.io.File;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;public class Task {/*** @param filePath	文件路径:backups/www.ctrip.com.txt/* @return* @throws IOException*/public Document getHtml1(String filePath) throws IOException{/**********   Begin   **********/File file = new File(filePath);Document d = Jsoup.parse(file, "UTF-8", "/backups/www.ctrip.com.txt/");return d;/**********   End   **********/} /*** * @param filePath	文件路径:backups/hotels.ctrip.com_domestic-city-hotel.txt/* @return* @throws IOException*/public Document getHtml2(String filePath) throws IOException{/**********   Begin   **********/File fl = new File(filePath);Document dt = Jsoup.parse(fl, "UTF-8", "/backups/hotels.ctrip.com_domestic-city-hotel.txt/");return dt;/**********   End   **********/} 
}

第2关 解析并提取HTML 元素(一)

package step2;
import java.io.File;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class Task {//通过filePath文件路径获取Docment对象public Document getDoc1(String filePath) throws IOException{/**********   Begin   **********/File file = new File(filePath);Document document = Jsoup.parse(file, "UTF-8","/backups/www.ctrip.com.txt");return document;/**********   End   **********/}public Document getDoc2(String filePath) throws IOException{/**********   Begin   **********/File fe = new File(filePath);Document dt = Jsoup.parse(fe, "UTF-8","/backups/you.ctrip.com.txt");return dt;/**********   End   **********/}//获取所有链接public Elements getLinks(Document doc){/**********   Begin   **********/return doc.select("link[href]");/**********   End   **********/}//获取第一个class为“pop_attention”的divpublic Element getDiv(Document doc){/**********   Begin   **********/return doc.select("div.pop_attention").first();/**********   End   **********/}//获取所有li之后的i标签public Elements getI(Document doc){/**********   Begin   **********/return doc.select("li > i");/**********   Edn   **********/}}

 第3关 解析并提取HTML 元素(二)

package step3;
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class Task {//通过filePath文件路径获取Docment对象public Document getDoc(String filePath) throws IOException{/**********   Begin   **********/return Jsoup.parse(new File(filePath), "uft-8");/**********   End   **********/}//获取所有链接public List<String> getLinks(Document doc){/**********   Begin   **********/Elements select = doc.select("a[href]");List<String> list = new ArrayList<>();for (Element element : select){String temp = element.attr("href");if(!temp.startsWith("http")) temp = "http:" + temp;list.add(element.tagName() + "$" + temp + "(" + element.text() + ")");}return list;/**********   End   **********/}//获取图片public List<String> getMedia(Document doc){/**********   Begin   **********/Elements img = doc.select("img");List<String> list = new ArrayList<>();for (Element element : img){String temp = element.attr("src");if(!temp.startsWith("http")) temp = "http:" + temp;list.add(element.tagName() + "$" + temp);}return list;/**********   End   **********/}//获取link[href]链接public List<String> getImports(Document doc){/**********   Begin   **********/Elements link = doc.select("link");List<String> list = new ArrayList<>();for (Element value : link){String temp = value.attr("href");if(!temp.startsWith("http")) temp = "http:" + temp;list.add(value.tagName() + "$" + temp + "(" + value.attr("rel") + ")");}return list;/**********   End   **********/}}

 第4关 使用Jsoup抓取携程旅游网全国城市信息

package step4;
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class Task {//通过filePath文件路径获取Docment对象public Document getDoc(String filePath) throws IOException{/**********   Begin   **********/File file = new File(filePath);Document doc = Jsoup.parse(file, "uft-8", "/backups/hotels.ctrip.com_domestic-city-hotel.txt");return doc;/**********   End   **********/}/*** 获取所有城市返回城市信息集合* @param doc	* @return*/public List<HotelCity> getAllCitys(Document doc){/**********   Begin   **********/Elements select1 = doc.select("dl.layoutfix");List<HotelCity> list = new ArrayList<>();for (Element element : select1.select("a")){HotelCity hotelCity = new HotelCity();hotelCity.setCityId(element.attr("href").replaceAll("[^(0-9)]", ""));hotelCity.setCityName(element.text());hotelCity.setPinyin(element.attr("href").split("/")[2].replaceAll("[^(a-zA-Z)]",""));hotelCity.setHeadPinyin("A");list.add(hotelCity);}return list;/**********   End   **********/}
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/589265.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小白入门java基础-反射详解

一&#xff1a;介绍 Java 是由 Sun Microsystems 公司于 1995 年 5 月推出的高级程序设计语言。 Java 可运行于多个平台&#xff0c;如 Windows, Mac OS 及其他多种 UNIX 版本的系统。Java语言编写的程序&#xff0c;在一次编译后&#xff0c;可以在多个系统平台上运行。 主…

ajax请求的详细流程+详细示例

AJAX&#xff08;Asynchronous JavaScript and XML&#xff09;是一种用于创建异步 Web 应用程序的技术。下面是 AJAX 请求的详细流程&#xff1a; 创建 XMLHttpRequest 对象&#xff1a;在 JavaScript 代码中&#xff0c;使用 new XMLHttpRequest() 创建一个 XMLHttpRequest 对…

Linux常用命令总结

1.系统查看 2.网络相关 2.1 设置静态网络 [rootlocalhost Desktop]# ifconfig eth1 Link encap:Ethernet HWaddr 00:0C:29:B1:24:A1通过ifconfig以上信息主要得到 eth0 还是eth1;还有HWaddr,1) 需要Vmware中的"使用本次DHCP"服务将IP地址分配给虚拟机关闭 2)…

Spring Boot笔记1

1. SpringBoot简介 1.1. 原有Spring优缺点分析 1.1.1. Spring的优点分析 Spring是Java企业版&#xff08;Java Enterprise Edition&#xff0c;javeEE&#xff09;的轻量级代替品。无需开发重量级的Enterprise JavaBean&#xff08;EJB&#xff09;&#xff0c;Spring为企业…

Bmp2Png是什么工具?好用吗?

Bmp2Png是什么工具&#xff1f;好用吗&#xff1f; 批量BMP图片转为PNG透明图片&#xff0c;去掉BMP黑色背景&#xff0c;压缩导出png图片V1.1前段时间上传了一款bmp转png并去黑底的demo软件&#xff0c;非常受欢迎&#xff0c; 上一版本地址&#xff1a;批量BMP图片转为PNG…

计算机网络 (期末救命版)

文章目录 Ⅰ 网络概述1. 互联网概述与组成2. 计算机网络的类别3. 计算机网络的性能指标4. 计算机网络体系结构 Ⅱ 物理层1. 物理层的任务2. 信道复用技术 Ⅲ 数据链路层1. 点对点信道2. 基本问题3. 点对点协议 PPP4. 使用广播信道的数据链路层 Ⅳ 网络层1. 网络层的服务2. 网际…

解算人生--写于2023跨年之夜

最近买了一本书&#xff0c;书名叫《计算》 读了部分内容&#xff0c;虽然理解上还需要再下下功夫&#xff0c;但是直观的感觉冲击还是挺大的&#xff0c;最明显的就是表面与本质的把握。大家可能都有这样一种感觉&#xff0c;初步涉足某一领域时&#xff0c;开始我们都会被大量…

Pytorch深度学习-----完整的模型验证套路

系列文章目录 PyTorch深度学习——Anaconda和PyTorch安装 Pytorch深度学习-----数据模块Dataset类 Pytorch深度学习------TensorBoard的使用 Pytorch深度学习------Torchvision中Transforms的使用(ToTensor,Normalize,Resize ,Compose,RandomCrop) Pytorch深度学习-----…

github使用技巧(经验篇)

相关经验 指定代码范围并高亮显示 例如&#xff0c;指定nn_ops.py文件2612-L2686行的代码&#xff1a;https://github.com/tensorflow/tensorflow/blob/v2.14.0/tensorflow/python/ops/nn_ops.py#L2612-L2686 FAQ Q&#xff1a;github网页打不开&#xff1f; 【github加载不…

WeNet语音识别调用通义千问

WeNet语音识别调用通义千问 WeNet语音识别对通义千问&#xff08;Qwen-72B-Chat Bot&#xff09;调用&#xff0c;首先通过WeNet将用户的语音输入转录为文本&#xff0c;然后将此文本输入通用问答模型以获取答案。 本人原创作品&#xff0c;体验一下 连续对话 WeNet语音识别…

如何获取2024年交易日历?

交易日历是金融领域的重要参考工具&#xff0c;包含了各国的法定节假日、休市日、交易时间调整等信息&#xff0c;能够帮助投资交易者合理安排交易时间、了解市场情况、提高决策的准确性。 DolphinDB 自 2.00.9/1.30.21 版本开始&#xff0c;内置了国内外五十多个交易所的交易…

一起玩儿物联网人工智能小车(ESP32)——22. 用ESP32的LED PWM控制器给TT马达调速(C MicroPython)

新年快乐&#xff01; 2024&#xff0c;我们一起玩儿&#xff01; 摘要&#xff1a;本文主要介绍如何使用Mixly实现PWM波形的输出。 下面就先用Mixly实现PWM波形的输出。首先打开Mixly软件&#xff0c;这次还是先使用C语言来实现。如果你有示波器&#xff0c;或者逻辑分析仪&a…

Linux: memory: THP相关的一些链接

https://docs.kernel.org/mm/page_tables.html https://access.redhat.com/solutions/46111 https://lwn.net/Articles/423584/ 引入的历史 http://www.linux-kvm.org/images/9/9e/2010-forum-thp.pdf ; develper的展示 https://developers.redhat.com/blog/2021/04/27/benchma…

基于SSM的牙科诊所管理系统

基于SSM的牙科诊所管理系统的设计与实现~ 开发语言&#xff1a;Java数据库&#xff1a;MySQL技术&#xff1a;SpringSpringMVCMyBatis工具&#xff1a;IDEA/Ecilpse、Navicat、Maven 系统展示 前台主页 后台界面 摘要 随着社会的不断发展和人们生活水平的提高&#xff0c;牙…

C++面试宝典第13题:计算餐厅账单

题目 假如你是一家餐厅的收银员,需要编写一个程序来计算顾客的账单。程序应该能够接受顾客点的菜品和数量,并根据菜品的单价计算出总价。另外,程序还应该能够处理折扣和优惠券,并输出最终的账单金额。 解析 这道题主要考察应聘者使用面向对象的设计方法来解决实际问题的能力…

【网络面试(3)】浏览器委托协议栈完成消息的收发

前面的博客中&#xff0c;提到过很多次&#xff0c;浏览器作为应用程序&#xff0c;本身是不具备向网络中发送网络请求的能力&#xff0c;要委托操作系统的内核协议栈来完成。协议栈再调用网卡驱动&#xff0c;通过网卡将请求消息发送出去&#xff0c;本篇博客就来探讨一下这个…

UG NX二次开发(C#)-Ufun和NXOpen混合编程

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 1、前言2、Ufun函数3、 NXOpen4、混合编程实现1、前言 在UG NX二次开发过程中,采用Ufun功能比较简单,能用比较少的代码实现我们需要的功能,但是ufun函数的功能不是很强大,尤其随着UG NX的版本…

LeetCode刷题--- 不同路径 III

个人主页&#xff1a;元清加油_【C】,【C语言】,【数据结构与算法】-CSDN博客 个人专栏 力扣递归算法题 http://t.csdnimg.cn/yUl2I 【C】 ​​​​​​http://t.csdnimg.cn/6AbpV 数据结构与算法 ​​​http://t.csdnimg.cn/hKh2l 前言&#xff1a;这个专栏主要讲述递…

基于 LangChain + GLM搭建知识本地库

一种利用 langchain 思想实现的基于本地知识库的问答应用&#xff0c;目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。 受GanymedeNil的项目document.ai和AlexZhangji创建的ChatGLM-6B Pull Request启发&#xff0c;建立了全流程可使用开源模…

Python中JSON模块的使用

1 JSON简介 JSON是JavaScript Object Notation即Javascript对象简谱的缩写。JSON是一种轻量级的数据交换格式&#xff0c;JSON数据是由键值对组成的结构&#xff0c;与Python中的字典类似&#xff0c;由尖括号包围的键值对组成&#xff0c;键和值的类型可以是字符串、数字、布…