基于Python的携程国际机票价格抓取与分析

一、项目背景与目标

携程作为中国领先的在线旅行服务平台,提供了丰富的机票预订服务。其国际机票价格受多种因素影响,包括季节、节假日、航班时刻等。通过抓取携程国际机票价格数据,我们可以进行价格趋势分析、性价比评估以及旅行规划建议等。

本项目的目标是:

  1. 利用Python爬虫技术抓取携程国际机票价格数据。
  2. 对抓取的数据进行清洗和存储。
  3. 进行数据分析,包括价格趋势、热门航线等。
  4. 提供可视化结果,帮助用户直观了解机票价格动态。

二、 爬虫实现步骤

1 目标分析

携程国际机票页面(如 **<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">flights.ctrip.com</font>**)通常采用动态加载,数据可能通过AJAX请求返回JSON格式。我们需要:

  1. 分析网页请求:使用浏览器开发者工具(F12)查看XHR请求。
  2. 模拟请求:构造合理的请求头(Headers)和参数(Params)。
  3. 解析数据:提取航班号、出发/到达时间、航空公司、价格等信息。

2 代码实现

(1) 安装依赖
(2) 获取机票数据(静态页面方案)

如果携程的机票数据可以直接通过HTML获取(部分旧版页面适用),可以使用 **<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">requests + Beautifu</font>**

import requests
from bs4 import BeautifulSoup
import pandas as pddef scrape_ctrip_flights(departure, arrival, date):url = f"https://flights.ctrip.com/international/{departure}-{arrival}?depdate={date}"headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"}response = requests.get(url, headers=headers)soup = BeautifulSoup(response.text, 'html.parser')flights = []for flight in soup.select('.flight-item'):airline = flight.select_one('.airline-name').text.strip()departure_time = flight.select_one('.depart-time').text.strip()arrival_time = flight.select_one('.arrival-time').text.strip()price = flight.select_one('.price').text.strip()flights.append({'Airline': airline,'DepartureTime': departure_time,'ArrivalTime': arrival_time,'Price': price})return pd.DataFrame(flights)# 示例:抓取上海到东京的2023-12-01航班
df = scrape_ctrip_flights('SHA', 'TYO', '2023-12-01')
print(df.head())
(3) 动态页面抓取(Selenium方案)

如果数据是动态加载的,需使用 **<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">Selenium</font>** 模拟浏览器操作:

from selenium import webdriver
from selenium.webdriver.common.by import By
import timedef scrape_ctrip_dynamic(departure, arrival, date):driver = webdriver.Chrome()  # 需安装ChromeDriverurl = f"https://flights.ctrip.com/international/{departure}-{arrival}?depdate={date}"driver.get(url)time.sleep(5)  # 等待页面加载flights = []for flight in driver.find_elements(By.CSS_SELECTOR, '.flight-item'):airline = flight.find_element(By.CSS_SELECTOR, '.airline-name').textdeparture_time = flight.find_element(By.CSS_SELECTOR, '.depart-time').textarrival_time = flight.find_element(By.CSS_SELECTOR, '.arrival-time').textprice = flight.find_element(By.CSS_SELECTOR, '.price').textflights.append({'Airline': airline,'DepartureTime': departure_time,'ArrivalTime': arrival_time,'Price': price})driver.quit()return pd.DataFrame(flights)# 示例:动态抓取数据
df = scrape_ctrip_dynamic('SHA', 'TYO', '2023-12-01')
print(df.head())
(4) 反爬策略

携程可能有反爬机制,需采取以下措施:

  • 随机User-Agent:避免被识别为爬虫。
  • IP代理池:防止IP被封禁。
  • 请求间隔:避免高频访问。

示例(使用 **<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">fake_useragent</font>** 和代理):

from fake_useragent import UserAgent
import requests# 初始化UserAgent对象
ua = UserAgent()# 设置请求头
headers = {"User-Agent": ua.random,"Accept-Language": "en-US,en;q=0.9"
}# 设置代理信息
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"# 构造代理服务器的认证信息
proxy_auth = f"{proxyUser}:{proxyPass}"# 构造代理服务器的URL
proxies = {"http": f"http://{proxy_auth}@{proxyHost}:{proxyPort}","https": f"https://{proxy_auth}@{proxyHost}:{proxyPort}"
}# 目标URL
url = "https://example.com"  # 替换为你的目标URL# 发送请求
response = requests.get(url, headers=headers, proxies=proxies)# 打印响应内容
print(response.text)

三、 数据分析与可视化

(1) 数据清洗

# 转换价格格式(如 "¥2,500" → 2500)
df['Price'] = df['Price'].str.replace('¥', '').str.replace(',', '').astype(float)# 按价格排序
df_sorted = df.sort_values('Price')
print(df_sorted.head())

(2) 价格分布可视化

import matplotlib.pyplot as plt
import seaborn as snsplt.figure(figsize=(10, 6))
sns.histplot(df['Price'], bins=20, kde=True)
plt.title('International Flight Price Distribution (Shanghai to Tokyo)')
plt.xlabel('Price (¥)')
plt.ylabel('Frequency')
plt.show()

(3) 航空公司价格对比

plt.figure(figsize=(12, 6))
sns.boxplot(x='Airline', y='Price', data=df)
plt.xticks(rotation=45)
plt.title('Flight Price Comparison by Airline')
plt.show()

四.、结论

本文介绍了如何使用Python爬取携程国际机票数据,并进行分析与可视化。关键点包括:

  1. 网页分析:确定数据加载方式(静态/动态)。
  2. 爬虫实现:使用 **<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">Requests</font>****<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">Selenium</font>** 抓取数据。
  3. 反爬策略:合理设置请求头、代理和访问频率。
  4. 数据分析:利用 **<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">Pandas</font>****<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">Matplotlib</font>** 进行价格趋势分析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/903370.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows 图形显示驱动开发-初始化WDDM 1.2 和 PnP

(WDDM) 1.2 及更高版本显示微型端口驱动程序的所有 Windows 显示驱动程序都必须支持以下行为&#xff0c;以响应即插即用 (PnP) 基础结构启动和停止请求。 根据驱动程序返回成功或失败代码&#xff0c;或者系统硬件是基于基本输入/输出系统 (BIOS) 还是统一可扩展固件接口 (UEF…

【1区SCI】Fusion entropy融合熵,多尺度,复合多尺度、时移多尺度、层次 + 故障识别、诊断-matlab代码

引言 2024年9月&#xff0c;研究者在数学领域国际顶级SCI期刊《Chaos, Solitons & Fractals》&#xff08;JCR 1区&#xff0c;中科院1区 Top&#xff09;上以“Fusion entropy and its spatial post-multiscale version: Methodology and application”为题发表最新科学研…

高并发架构设计之缓存

一、引言 缓存技术作为高并发架构设计的基石之一&#xff0c;通过数据暂存和快速访问机制&#xff0c;在提升系统性能、降低后端负载方面发挥着不可替代的作用。优秀的缓存设计能够将系统吞吐量提升数个数量级&#xff0c;将响应时间从秒级降至毫秒级&#xff0c;甚至成为系统…

Unity AI-使用Ollama本地大语言模型运行框架运行本地Deepseek等模型实现聊天对话(一)

一、Ollama介绍 官方网页&#xff1a;Ollama官方网址 中文文档参考&#xff1a;Ollama中文文档 相关教程&#xff1a;Ollama教程 Ollama 是一个开源的工具&#xff0c;旨在简化大型语言模型&#xff08;LLM&#xff09;在本地计算机上的运行和管理。它允许用户无需复杂的配置…

Docker Python 镜像使用指南

1. 使用 Python 镜像创建容器 docker run -itd -v /data:/data python:latest 作用&#xff1a;创建一个基于 python:latest 镜像的容器&#xff0c;并后台运行。 参数说明&#xff1a; -itd&#xff1a;交互式后台运行&#xff08;-i 交互模式&#xff0c;-t 分配伪终端&…

matlab中Simscape的调用-入门

Simscape 是由 MathWorks 公司开发的一款基于物理建模的仿真工具&#xff0c;它建立在 MATLAB/Simulink 平台之上&#xff0c;专门用于建模和仿真多领域物理系统。 主要特点 多领域建模&#xff1a;Simscape 提供了丰富的物理元件库&#xff0c;涵盖了机械、电气、液压、气动…

Flowable7.x学习笔记(十三)查看部署流程图

前言 Flowable 的流程图是 Flowable Modeler 或 Process Editor 中&#xff0c;使用拖拽和属性面板基于 BPMN 2.0 元素&#xff08;如任务、网关、事件、序列流等&#xff09;渲染出的业务流程图形界面​。 一、将图形导出可查看的作用 ① 可视化建模 帮助业务分析师和开发者…

Bootstrap 模态框

Bootstrap 模态框 Bootstrap 模态框&#xff08;Modal&#xff09;是 Bootstrap 框架中的一个组件&#xff0c;它允许你在一个页面中创建一个模态对话框&#xff0c;用于显示内容、表单、图像或其他信息。模态框通常覆盖在当前页面上&#xff0c;提供了一种不离开当前页面的交…

python-69-基于graphviz可视化软件生成流程图

文章目录 1 Graphviz可视化软件1.1 graphviz简介1.2 安装部署2 基于python示例应用2.1 基本示例2.2 解决中文显示乱码2.3 显示多个输出边2.4 显示输出引脚名称2.5 从左至右显示布局2.6 设置节点为方形3 参考附录1 Graphviz可视化软件 1.1 graphviz简介 Graphviz(Graph Visua…

AJAX 介绍

一、什么是AJAX ? AJAX 是 异步的 JavaScript 和 XML&#xff08;Asynchronous JavaScript And XML&#xff09; 的缩写&#xff0c;是一种实现浏览器与服务器进行数据通信的技术。其核心是通过 XMLHttpRequest 对象在不重新刷新页面的前提下&#xff0c;与服务器交换数据并更…

新ubuntu物理机开启ipv6让外网访问

Ubuntu 物理机 SSH 远程连接与 IPv6 外网访问测试指南 1. 通过 SSH 远程连接 Ubuntu 物理机 1.1 安装 SSH 服务 sudo apt update sudo apt install openssh-server1.2 检查 SSH 服务状态 sudo systemctl status ssh确认出现 active (running)。 1.3 获取物理机 IP 地址 i…

linux系统上使用nginx访问php文件返回File not found错误处理方案

linux系统上使用nginx访问php文件返回File not found错误处理方案 第一种情况第二种情况 第一种情况 可以在你的location php 里面添加当文件不存在时返回404而不是交给php-fpm进行处理 location ~ \.php$ { ... #文件不存在转404 try_files $uri 404; ... }然后&#xff0c…

基于 SpringBoot 与 Redis 的缓存预热案例

文章目录 “缓存预热” 是什么&#xff1f;项目环境搭建创建数据访问层预热数据到 Redis 中创建缓存服务类测试缓存预热 “缓存预热” 是什么&#xff1f; 缓存预热是一种优化策略&#xff0c;在系统启动或者流量高峰来临之前&#xff0c;将一些经常访问的数据提前加载到缓存中…

java—11 Redis

目录 一、Redis概述 二、Redis类型及编码 三、Redis对象的编码 1. 类型&编码的对应关系 2. string类型常用命令 &#xff08;1&#xff09;string类型内部实现——int编码 &#xff08;2&#xff09;string类型内部实现——embstr编码 ​编辑 &#xff08;3&#x…

分布式链路追踪理论

基本概念 分布式调用链标准-openTracing Span-节点组成跟踪树结构 有一些特定的变量&#xff0c;SpanName SpanId traceId spanParentId Trace&#xff08;追踪&#xff09;&#xff1a;代表一个完整的请求流程&#xff08;如用户下单&#xff09;&#xff0c;由多个Span组成…

err: Error: Request failed with status code 400

好的&#xff0c;今天学习ai的时候从前端发送请求&#xff0c;实在是想不通为啥会啥是一个坏请求&#xff0c;后来从前端方法一个一个找参数&#xff0c;传递的值都有&#xff0c;然后想到我这边需要传递的是一个对象&#xff0c;那么后端使用的RequestParam就接收不到json对象…

开发小程序后端用PHP好还是Java哪个好?

在开发后端时&#xff0c;是选择PHP还是Java主要取决于你的项目需求、团队技术栈、性能要求以及维护成本等因素。下面我将从几个关键方面对两者进行简要对比&#xff0c;以帮助你做出更明智的选择。 PHP 优点&#xff1a; 简单易学&#xff1a;PHP语法简单&#xff0c;上手快&a…

麒麟V10 aarch64 qt 安装

在麒麟V10(aarch64架构)中安装Qt,需根据具体需求选择合适的方法。以下是综合多个搜索结果的安装方案及注意事项: 一、安装方法 1. 在线安装默认版本 适用于对Qt版本无特殊要求的情况。通过APT包管理器安装系统默认提供的Qt版本(如Qt 5.12.12): sudo apt-get update s…

pdf.js移动端预览PDF文件时,支持双指缩放

在viewer.html中添加手势缩放代码 <script>// alert("Hello World");let agent navigator.userAgent.toLowerCase();// if (!agent.includes("iphone")) {let pinchZoomEnabled false;function enablePinchZoom(pdfViewer) {let startX 0, start…

算法笔记.kruskal算法求最小生成树

题目&#xff1a;&#xff08;来源&#xff1a;AcWing&#xff09; 给定一个 n 个点 m 条边的无向图&#xff0c;图中可能存在重边和自环&#xff0c;边权可能为负数。 求最小生成树的树边权重之和&#xff0c;如果最小生成树不存在则输出 impossible。 给定一张边带权的无向…