Python采集二手车数据信息实现数据可视化展示

嗨喽~大家好呀,这里是魔王呐 ❤ ~!

python更多源码/资料/解答/教程等 点击此处跳转文末名片免费获取

环境使用:

  • Python 3.10

  • Pycharm

模块使用:

  • requests >>> pip install requests

  • csv

数据可视化:

  • pandas >>> pip install pandas

  • pyecharts >>> pip install pyecharts

爬虫实现基本流程

你要获取什么数据 -> 你要获取的数据在哪?

一. 数据来源分析
  1. 明确需求

    明确采集的网站以及数据内容

    网址: https://changsha.yiche.taocheche.com/buycar/pges9bxcdzaoqtrnml/

    数据: 车辆信息: 车型 价格 公里数 城市…

  2. 抓包分析

    通过浏览器开发者工具进行分析, 我们想要的数据内容可以请求那个网站能够得到

    • 打开开发者工具

      F12 / 右键点击检查选择network (网络)

    • 刷新网页

      让网页的数据内容重新加载一遍 (才能在开发者中看到对应数据包)

    • 通过关键字搜索找到对应数据包位置

    • 数据包地址: https://proconsumer.taocheche.com/c-car-consumer/carsource/getUcarLo
      calList

二. 代码实现步骤

导入模块

'''
Python学习交流,免费公开课,免费资料,
免费答疑,系统学习加QQ群:926207505
'''
# 导入数据请求模块
import requests
# 导入格式化输出模块
from pprint import pprint
# 导入csv模块
import csv
  1. 保存数据

    保存表格文件: csv / Excel

f = open('data.csv', mode='w', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['标题','品牌','车型','年份','里程','城市','售价','首付',
])
csv_writer.writeheader()
  1. 发送请求

    模拟浏览器对于url地址发送请求

    • 模拟浏览器: 一种简单反反爬手段 (字典)

      可以直接在开发者工具中复制 -> 点击数据包 -> 标头(headers) -> 请求标头(request
      headers) -> User-Agent (UA)

    • 请求网址

    • 发送请求

      请求方法: GET / POST

      GET: 是向服务器获取数据

      POST: 是需要向服务器提交表单参数

'''
Python学习交流,免费公开课,免费资料,
免费答疑,系统学习加QQ群:926207505
'''
# 模拟浏览器
headers = {# User-Agent 用户代理, 表示浏览器基本身份信息'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'
}
# 请求网址
url = 'https://proconsumer.taocheche.com/c-car-consumer/carsource/getUcarLocalList'
for page in range(1, 101):print(f'============正在采集第{page}页的数据内容============')# 请求参数data = {"liveSwitch":1,"terminal":40,"aggreCarSeries":0,"aggreCarbrands":0,"bangMai":"false","bangMaiChe":"false","baseScore":0,"bigArea":0,"brandId":0,"brandPro":0,"canNonLocal":2,"carAgeId":0,"carBasicId":0,"carLevel":0,"carType":0,"cityId":1301,"color":0,"commonFlag":4,"country":0,"curCity":0,"customizeSortFlag":0,"days":0,"directSaleCar":0,"distanceKm":0,"districtId":0,"drivingMileageId":0,"exhaust":0,"financialPriceHigh":0,"financialPriceLower":0,"firstPic":0,"gearBoxType":0,"highAge":0,"highDrivingMileage":0,"highPrice":0,"isAuthenticated":0,"isCarId":0,"isCheckReportJson":0,"isDealerAuthorized":0,"isDealerRecommend":0,"isExcludeYDG":0,"isJDActivity":0,"isLicensePhoto":0,"isLicensed":0,"isNeglect":0,"isNewCar":0,"isShowMr":0,"isShowRecom":0,"isVideo":0,"isWarranty":0,"level":0,"licenseCityId":0,"liveBroadcast":0,"loanFirstPayHigh":0,"loanFirstPayLower":0,"loanMonthPayHigh":0,"loanMonthPayLower":0,"loanUserid":0,"lowAge":0,"lowDrivingMileage":0,"lowPrice":0,"mainBrandId":0,"newCarHighPrice":0,"newCarLowPrice":0,"noAudit":"false","notCity":0,"notUcarID":0,"orderDirection":0,"pageIndex":page,"pageSize":20,"picCount":0,"price":0,"provinceId":0,"publishTimeStatus":0,"purchaseCityId":0,"regions":"false","requestReferer":0,"requestSource":0,"returnCaryears":"false","score":0,"scorePerformance":0,"seatNumHigh":0,"seatNumLower":0,"seriesId":0,"showPosition":0,"siteIds":"5","sortBoostFlag":0,"sourceType":0,"splitFlowAlgorithm":"","startNum":0,"supperiorId":0,"uCarID":0,"uCarStatus":"1","useBlackUserList":"false","userID":0,"userType":1001,"warrantyType":0}# 发送请求response = requests.post(url=url, json=data, headers=headers)
  1. 获取数据

    获取服务器返回响应数据

    • response.text

      获取响应文本数据 (字符串)

    • response.json()

      获取响应json数据 (字典) 必须是完整json数据格式

    • response.content

      获取响应二进制数据 常用于保存数据 (图片 / 音频 / 视频 / 特定格式文件…)

    json_data = response.json()
  1. 解析数据

    根据第二步: 获取响应数据 -> 返回字典数据类型

    提取数据: 根据键值对取值即可

    # 提取车辆信息所对应列表 dataListdataList = json_data['data']['uCarBasicInfoList']['dataList']# for循环遍历, 提取列表里面每个元素for index in dataList:# 提取具体车辆信息内容, 保存字典里面# dit 自定义变量名 (取昵称)dit = {'标题': index['showShortTitle'],'品牌': index['mainBrandName'],'车型': index['serialName'].replace(index['mainBrandName'], ''),'年份': index['buyCarYear'],'里程': index['drivingMileageText'].replace('万公里', ''),'城市': index['purchaseCityName'],'售价': index['activityPrice'],'首付': index['loanFirstPayText'].replace('万', ''),}csv_writer.writerow(dit)print(dit)

数据可视化

一般用 jupyter 进行写代码

  • jupyter notebook

    如果你安装的anaconda自带

    如果你安装的python, 则需要在cmd中安装jupyter

    pip install jupyter notebook

import pandas as pd
from pyecharts.globals import CurrentConfig, NotebookType
CurrentConfig.NOTEBOOK_TYPE = NotebookType.JUPYTER_LAB
df = pd.read_csv('data.csv')
df.head()
  • 可视化官方文档: https://gallery.pyecharts.org/#/README
'''
Python学习交流,免费公开课,免费资料,
免费答疑,系统学习加QQ群:926207505
'''
# 导入配置项目
from pyecharts import options as opts
# 导入饼图
from pyecharts.charts import Pie
# 导入随机生成数据
from pyecharts.faker import Faker
info = df['品牌'].value_counts().index.to_list()
num = df['品牌'].value_counts().to_list()
# 图形配置
c = (Pie().add("",[list(z)for z in zip(info, # 数据num,)],center=["40%", "50%"],).set_global_opts(# 标题title_opts=opts.TitleOpts(title="二手车品牌占比分布情况"),legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"),).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))# 保存可视化效果 为 html文件# .render("pie_scroll_legend.html")
)
# 展示在jupyter 上面
c.load_javascript()
c.render_notebook()

# 导入配置项目
from pyecharts import options as opts
# 导入饼图
from pyecharts.charts import Pie
# 导入随机生成数据
from pyecharts.faker import Faker
info = df['城市'].value_counts().index.to_list()[:10]
num = df['城市'].value_counts().to_list()[:10]
# 图形配置
c = (Pie().add("",[list(z)for z in zip(info, # 数据num,)],center=["40%", "50%"],).set_global_opts(# 标题title_opts=opts.TitleOpts(title="二手车Top10城市占比分布情况"),legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"),).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))# 保存可视化效果 为 html文件# .render("pie_scroll_legend.html")
)
c.render_notebook()

# 导入配置项目
from pyecharts import options as opts
# 导入饼图
from pyecharts.charts import Pie
# 导入随机生成数据
from pyecharts.faker import Faker
info = df['车型'].value_counts().index.to_list()[:10]
num = df['车型'].value_counts().to_list()[:10]
# 图形配置
c = (Pie().add("",[list(z)for z in zip(info, # 数据num,)],center=["40%", "50%"],).set_global_opts(# 标题title_opts=opts.TitleOpts(title="二手车Top10车型占比分布情况"),legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"),).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))# 保存可视化效果 为 html文件# .render("pie_scroll_legend.html")
)
c.render_notebook()

'''
Python学习交流,免费公开课,免费资料,
免费答疑,系统学习加QQ群:926207505
'''
import pyecharts.options as opts
from pyecharts.charts import Line
from pyecharts.faker import Faker
info = df['车型'].value_counts().index.to_list()[:10]
num = df['车型'].value_counts().to_list()[:10]c = (Line().add_xaxis(info).add_yaxis("车型", num, is_connect_nones=True).set_global_opts(title_opts=opts.TitleOpts(title="二手车Top10车型折线图"))# .render("line_connect_null.html")
)
c.render_notebook()

如果文章看不懂,我还准备了视频教程,同样文末名片获取噢~

尾语

最后感谢你观看我的文章呐~本次航班到这里就结束啦 🛬

希望本篇文章有对你带来帮助 🎉,有学习到一点知识~

躲起来的星星🍥也在努力发光,你也要努力加油(让我们一起努力叭)。

最后,宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/705783.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

自学Python第十五天-常用的HTML解析工具:bs4、xpath、re

自学Python第十五天-常用的HTML解析工具:bs4、xpath、re BS4安装和引入开始使用find_all() 方法获取标签find() 方法获取标签select() 方法获取标签,css 选择器从标签中获取数据 XPathxpath 基础xpath 语法规则lxml 模块xpath() 方法 REmatch() 方法sear…

git配置SSH

gitLab在Cenos7中安装,在Cenos7系统中执行以下操作 1.生成SSH ssh-keygen -t rsa -C xxxxxx.com 然后一路回车,直到出现以下界面为止(-C 参数是邮箱地址) 2.复制SSH 打开/root/.ssh/id_rsa.pub文件,复制其中的内容 在Linux系统中,/root/.…

初谈软件工程(一)

我就读于兰州交通大学的软件工程专业。虽然在全国众多的985、211高校中,兰州交通大学可能并不显眼,似乎未能跻身这些所谓的“顶尖”行列就意味着不被认可。然而,在甘肃省的教育领域中,它无疑是一座璀璨的明珠,名列前茅…

使用R语言进行主成分和因子分析

一、数据描述 数据来源2013年各地区水泥制造业规模以上企业的各主要经济指标,原始数据来源于2014年(《中国水泥统计年鉴》),试对用主成分和因子进行经济效益评价。 地区,企业个数(亿元),流动资产合计&…

pytest-配置项目不同环境URL

pytest自动化中,在不同环境进行测试,可以将项目中的url单独抽取出来,通过pytest.ini配置文件实现(类似postman中的“Environments”) 使用步骤: 1)安装pytest-base-url插件 pytest-base-url …

阿里云国际云解析DNS如何开启/关闭流量分析?

流量分析服务会涉及产生日志费用,所以开通内网DNS解析服务后,默认不会主动开启流量分析,需要您手动开启流量分析。对于未开启流量分析的用户,进入界面会提示您展示的都是模拟数据,您可以点击开启流量分析服务&#xff…

【pytorch】常用代码

文章目录 条件与概率torch.tensor()torch.rand()torch.randn()torch.randint()torch.multinominal() 逻辑运算torch.argmax()torch.max()torch.sum()torch.tanh()torch.pow() 功能性操作 torch.nn.functionalF.normalize()F.elu()F.relu()F.softmax() 张量计算torch.zeros()tor…

基于JavaWeb实现的校园新闻发布系统

一、系统架构 前端:jsp | bootstrap | js | css 后端:springboot | jdbc 环境:jdk1.6 | mysql | maven 二、 代码及数据库 三、功能介绍 01. web端-首页 02. web端-新闻列表 03. web端-新闻明细 04. 管理端-登录页…

数据可视化引领智慧工业新时代

在智慧工业的大潮中,数据可视化崭露头角,以其直观、清晰的方式赋能工业生产,为智慧工业的高效运转提供了强有力的支持。下面我就以可视化从业者的角度,简单聊聊这个话题。 数据可视化首先在智慧工业的生产监控中大显身手。通过将…

Vue3前端实现一个本地消息队列(MQ), 让消息延迟消费或者做缓存

MQ功能实现的具体代码(TsMQ.ts): import { v4 as uuidx } from uuid;import emitter from /utils/mitt// 消息类 class Message {// 过期时间,0表示马上就消费exp: number;// 消费标识,避免重复消费tag : string;// 消息体body : any;constr…

手机打开 第三方 “微信、快手、QQ、电话、信息” 等

前期回顾 Vue3 TS Element-Plus —— 项目系统中封装表格搜索表单 十分钟写五个UI不在是问题_vue3 封装table 配置表格-CSDN博客https://blog.csdn.net/m0_57904695/article/details/135538630?spm1001.2014.3001.5501 目录 🤖 下载App如下图所示:…

10 款数据恢复软件功能和有效性对比(2024 年更新)

数据丢失可能是一种痛苦的经历,无论是由于意外删除、硬件故障还是软件损坏。值得庆幸的是,数字时代带来了强大的数据恢复解决方案。 随着我们进入 2024 年,市场上充斥着旨在有效检索丢失数据的先进软件。在本文中,我们将探讨 2024…

代码随想录 Leetcode494. 目标和

题目: 代码(首刷看解析 2024年2月26日) 思路:根据题意,设两个背包,packageA存放前面是""的数字之和,packageB存放前面是“-”的数字之和 则sum packageA packageB; target packageA - packag…

科普:哪几类人适合做人力RPO蓝海项目?

在当今竞争激烈的市场环境中,人力资源管理对于企业的重要性日益凸显。人办理RPO(招聘流程外包)作为一种新兴的服务模式,帮助企业优化招聘流程,提高招聘效率和质量。那么,哪几类人适合做人力RPO蓝海项目呢?本文将为大家详细总结一…

QT之项目经验(windows下的sqlite,c++开发)

目录 一、需要时间去磨练gui的调整和优化 1. 借鉴网上开源项目学习 2. gui的布局及调整是磨人的一件事情 3. gui的布局也是可以用组件复刻的 4. 耗时的设备树 二、多线程异步弹窗 三、定时任务动态变更设定 1.确定按钮触发 2.此处监听定时任务时间的改变 3.此处对改变做出具…

ClickHouse 指南(三)最佳实践 -- 跳数索引

Data Skipping Indexes Data Skipping Indexes 2 1、简介 影响ClickHouse查询性能的因素很多。在大多数情况下,关键因素是ClickHouse在计算查询WHERE子句条件时是否可以使用主键。因此,选择适用于最常见查询模式的主键对于有效的表设计至关重要。 然…

k8s(5)

目录 使用Kubeadm安装k8s集群: 初始化操作: 每台主从节点: 升级内核: 所有节点安装docker : 所有节点安装kubeadm,kubelet和kubectl: 修改了 kubeadm-config.yaml,将其传输给…

k8s pv与pvc理解与实践

参考文章: https://blog.csdn.net/qq_41337034/article/details/117220475 一、 pv/pvc简述 Pv是指PersistentVolume,中文含义是持久化存储卷是对底层的共享存储的一种抽象,Pv由管理员进行配置和创建,只要包含存储能力&#xff…

iPhone利用文件管理器批量导出语音备忘录和照片到电脑

步骤1:使用文件服务器在 iPhone 和电脑间共享文件 参考文献:苹果官网操作指南 步骤1.1:iPhone上打开文件app,点击右上角三个点,选择“连接服务器” 步骤1.2:输入电脑的登录账号和密码 步骤1.3&#xff1a…

基于uniapp框架的古汉语学习考试系统 微信小程序python+java+node.js+php

1、一般用户的功能及权限 所谓一般用户就是指还没有注册的过客,他们可以浏览主页面上的信息。但如果需要其它操作时,要登录注册,只有注册成功才有的权限。 2、管理员的功能及权限 用户信息的添加和管理,古汉语信息加和管理和学习视频添加和管…