爬什么值得买的榜单——爬虫练习题目一（问）

爬虫题目你敢试试吗？

- 引言
- 具体原因
- 网站
- 思路
- - 总体
- 我让AI给个框架
- - 1. **项目初始化与依赖安装**
  - 2. **定义数据模型**
  - 3. **网络请求模块**
  - 4. **页面解析模块**
  - 5. **数据存储模块**
  - 6. **主程序流程**
- 结尾

引言

最近在做什么呢
建立一套完整的信息输入输出系统
在我上一次炒股的过程中
我深刻意识到
打工的我是麻木的
打工的我是闭塞的
打工的我是得过且过的
在这里插入图片描述

加上工作性质
也不可能跟别人有太多的交流
所以信息获取渠道基本为0
然
重新打工的我
决定要建立一套完善的信息获取来源系统
帮助我能够嗅到风口的味道
在这里插入图片描述

所以我才发布了这篇文章
人民日报霸榜微信区、国足背后的利益下台？——每日信息输入
从今天
开始我的信息输入

然
这个只是一些新闻
还不足以体现经济市场
我还需要进一步下沉到市场中

遂
我找了张大妈这个平台
里面的电脑数码区
爬取里面的价格
获取其中动态
在这里插入图片描述

具体原因

什么值得买
有很多的电脑产品爆料
可以一定程度上面反应科技界的发展变化
比如 2023年年中的硬盘降价探寻原因发现国产的存储在崛起
是一个很不错的题材
在这里插入图片描述

网站

最终我选定了这个网站，这也是我长久以来一直关注的
有时候价格不错的产品
我就会出手
在这里插入图片描述

https://faxian.smzdm.com/h3s0t0f163c5p1/#filter-block

思路

总体

爬取网址：https://faxian.smzdm.com/h3s0t0f163c5p1/#filter-block（什么值得买的12小时热榜、电脑数码专区）
爬取目标：
在这里插入图片描述

主图
平台
标题
价格
评论数
链接

初步目标是先爬取这些信息
后面再进一步整理
当然这些信息爬取出来之后
也是要做可视化处理的
不能是简单的数据
那样
就没什么意思了

我让AI给个框架

编写一个爬虫程序来抓取“什么值得买”网站的12小时热榜（电脑数码专区）信息

1. 项目初始化与依赖安装

创建一个新的Python项目目录。
使用pip安装必要的库，如requests用于发送HTTP请求，beautifulsoup4或lxml用于解析HTML内容，以及pandas用于数据处理和存储。

pip install requests beautifulsoup4 pandas

2. 定义数据模型

定义一个数据类或字典结构来存储每条商品详情，包括主图URL、平台名称、标题、价格、评论数及链接。

class Product:def __init__(self, main_img_url, platform, title, price, comments_count, link):self.main_img_url = main_img_urlself.platform = platformself.title = titleself.price = priceself.comments_count = comments_countself.link = link

3. 网络请求模块

创建一个函数用于发送GET请求到目标网址，并返回网页内容。

import requestsdef fetch_page_content(url):headers = {...}  # 添加合适的请求头，例如User-Agent等response = requests.get(url, headers=headers)response.raise_for_status()  # 检查响应状态码return response.text

4. 页面解析模块

使用BeautifulSoup解析HTML内容，定位到包含商品信息的部分，并遍历提取所需字段。

from bs4 import BeautifulSoupdef parse_product_info(html_content):soup = BeautifulSoup(html_content, 'html.parser')product_list = []# 找到商品列表元素（具体CSS选择器需要根据实际HTML结构确定）product_elements = soup.select('.product-list-item')  # 假设这是商品容器的选择器for item in product_elements:# 提取每个商品的信息main_img = item.find('img')['src']  # 主图URLplatform = item.find('.platform').text  # 平台名称title = item.find('.title').text  # 标题price = item.find('.price').text  # 价格comments_count = item.find('.comments-count').text  # 评论数link = item.find('.link')['href']  # 商品链接# 将信息封装为Product对象并添加到产品列表中product = Product(main_img, platform, title, price, comments_count, link)product_list.append(product)return product_list

5. 数据存储模块

将抓取到的商品信息保存到本地文件，可以选择CSV、JSON或者数据库等形式。

import pandas as pddef save_to_csv(products):df = pd.DataFrame([vars(p) for p in products])  # 将Product对象转为DataFramedf.to_csv('smzdm_products.csv', index=False)  # 存储为CSV文件

6. 主程序流程

组织整个爬虫流程，调用上述各模块方法。

if __name__ == '__main__':target_url = "https://faxian.smzdm.com/h3s0t0f163c5p1/#filter-block"# 获取网页内容content = fetch_page_content(target_url)# 解析内容获取商品信息products = parse_product_info(content)# 存储结果save_to_csv(products)