Python爬虫网络实践：去哪儿旅游数据爬取指南

在这个博客中，我们将探索如何使用 Python 来进行网络数据抓取，并以抓取旅游数据为例进行演示。我们将通过一个简单的示例来说明如何利用 Python 中的常用库进行网页抓取，从而获取旅游网站上的信息。

在这里插入图片描述

背景

在今天的数字化时代，网络是一个充满了各种信息和资源的巨大宝库。然而，要从网络上获取所需的信息，可能需要花费大量的时间和精力。幸运的是，有一种被称为网页抓取的技术可以帮助我们自动化这个过程。

代码解析

1. 导入必要的库

import os
from hashlib import md5
import pandas as pd
import requests
from bs4 import BeautifulSoup

os：用于操作文件路径等系统功能的标准 Python 库。
hashlib：用于生成哈希值的标准 Python 库，这里用于生成景点名称的哈希值作为数据的唯一标识。
pandas：用于数据处理和分析的流行 Python 库。
requests：用于发送 HTTP 请求和接收响应的 Python 库。
BeautifulSoup：用于解析 HTML 和 XML 文档的 Python 库。

2. 定义 get_page 函数

def get_page(url, city):response = requests.get(url=url)page_text = response.texthtml = BeautifulSoup(page_text, 'lxml')li_list = html.find('div', class_='listbox').find('ul').find_all('li')for li in li_list:# 解析网页中的景点信息并存储到字典中name = li.find('a', class_='titlink').textstrategy_sum = li.find('div', class_='strategy_sum').textcomment_sum = li.find('div', class_='comment_sum').textcur_star = li.find('span', class_='cur_star')['style'].split(':')[1].replace('%', '')ranking_sum = li.find('span', class_='ranking_sum').textdesbox = li.find('div', class_='desbox')link = li.find('a', class_='imglink')['href']img = li.find('a', class_='imglink').find('img')['src']# 将景点信息存储到字典中citydata = {'key': md5(name.encode('utf-8')).hexdigest(),'城市': city,'景点名称': name,'攻略数量': strategy_sum,'评论数量': comment_sum,'星级': cur_star,'排名': ranking_sum,'简介': desbox.text,'链接': link,'图片': img}# 将字典转换为 DataFrame，并将数据追加到 CSV 文件中df = pd.DataFrame(citydata, index=[0])df.to_csv('data.csv', encoding='utf-8-sig', index=False, header=False, mode='a+')print(citydata)

get_page 函数用于从指定 URL 获取网页数据，并解析其中的景点信息。然后将解析后的信息存储到字典 citydata 中，并将字典转换为 DataFrame，最后将数据追加到 CSV 文件中。

3. 主函数

if __name__ == '__main__':filename = 'data.csv'df = pd.DataFrame(columns=['key','城市', '景点名称', '攻略数量', '评论数量', '星级', '排名', '简介', '链接', '图片'])# 如果文件不存在，则创建一个新的 CSV 文件if not os.path.exists(filename):df.to_csv(filename, encoding='utf-8-sig', index=False)# 定义要爬取的城市和其对应的 URLurls = [{'city': '厦门','url': 'https://travel.qunar.com/p-cs299782-xiamen-jingdian-1-{page}','page': 0, 'max_page': 80},# 其他城市的 URL 数据...]# 循环遍历城市列表并爬取数据for url in urls:while url['page'] <= url['max_page']:url['page'] += 1get_page(url['url'].format(page=url['page']), url['city'])print('\r[{city}] 第{page}页/共{max_page}页'.format(city=url['city'],page=url['page'],max_page=url['max_page']),end=' ')time.sleep(5)