python爬虫实战——数据可视化

本篇文章将介绍如何利用Python爬虫获取数据并进行可视化展示,包括以下主要内容:

  1. 数据获取:使用requests库发送HTTP请求获取目标网页的数据;
  2. 数据解析:使用BeautifulSoup库对HTML代码进行解析提取所需数据;
  3. 数据存储:使用pandas库将数据保存至本地文件;
  4. 数据可视化:使用matplotlib和seaborn库对数据进行可视化展示。

代码示例中我们选取了新浪财经网站进行爬取,获取了股票的实时数据并进行了可视化展示。

1. 数据获取

在使用Python进行数据获取之前,需要安装requests库,我们可以使用pip命令进行安装。

pip install requests

下面是获取股票实时数据的代码示例:

import requestsurl = 'http://hq.sinajs.cn/list=sh000001'
response = requests.get(url)
data = response.text
print(data)

首先我们定义了目标网页的URL地址,然后使用requests库发送HTTP请求获取网页数据。得到的response对象中包含了HTTP响应的状态码、响应头和响应体等信息,我们使用response.text获取响应体中的文本数据,即股票实时数据。

2. 数据解析

得到股票实时数据后,下一步是对数据进行解析,提取所需的信息。在Python中我们可以使用BeautifulSoup库对HTML代码进行解析,它提供了一种非常方便的方式来获取网页中的数据。

我们先来看看新浪财经网站上股票实时数据的HTML代码:

var hq_str_sh000001="上证指数,3283.92,20.27,0.62,675021,8887585";

我们可以看到,股票实时数据以var hq_str_sh000001=开头,以分号结尾,中间是以逗号分隔的各个字段。我们可以使用字符串的split()函数将其分割成一个列表。

from bs4 import BeautifulSoupsoup = BeautifulSoup(data, 'html.parser')
items = soup.text.split(',')
name = items[0].split('=')[1]
price = items[1]
change = items[2]
pchange = items[3]
volume = items[4]
amount = items[5][:-1]  # 去掉最后一个分号
print(name, price, change, pchange, volume, amount)

使用BeautifulSoup库解析HTML代码,我们可以方便地获取各个字段的值。在这里我们使用split()函数将text文本分割成一个列表,然后通过列表的下标获取所需的数据。注意最后一个字段amount中包含有分号,我们使用切片[:-1]去掉最后一个分号。

3. 数据存储

我们将股票实时数据保存至本地文件,以便后续的数据可视化展示。在Python中我们可以使用pandas库将数据保存为CSV文件。

import pandas as pddata = [[name, price, change, pchange, volume, amount]]
df = pd.DataFrame(data, columns=['name', 'price', 'change', 'pchange', 'volume', 'amount'])
df.to_csv('data.csv', index=False)

使用pandas库创建DataFrame对象,然后将数据保存为CSV文件。注意在保存CSV文件时需要将索引(index)设置为False,否则会将索引也保存到文件中。

4. 数据可视化

将数据保存至本地文件后,我们可以使用matplotlib和seaborn库对数据进行可视化展示。下面是代码示例:

import matplotlib.pyplot as plt
import seaborn as snsdf = pd.read_csv('data.csv')
fig, ax = plt.subplots(figsize=(10, 6))
sns.barplot(x='name', y='pchange', data=df, ax=ax)
ax.set_xlabel('股票名称')
ax.set_ylabel('涨跌幅')
ax.set_title('股票实时涨跌幅')plt.show()

使用pandas库读取CSV文件中的数据,然后使用seaborn库绘制条形图。在这里我们将股票名称作为x轴,涨跌幅作为y轴。通过设置图形大小、坐标轴标签和标题等属性,我们可以使图形更加美观。

总结

生成结果后我们可以看到,使用Python爬虫获取数据后进行可视化展示非常方便,通过数据图形化展示可以更直观地观察数据的趋势和变化,从而更好地进行数据分析和决策。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/33312.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

3.2 Tomcat基础

1. Tomcat概述 Tomcat 服务器是一个免费的开放源代码的Web 应用服务器,属于轻量级应用服务器。 Tomcat版本:apache-tomcat-8.5.76。 2.IDEA集成Tomcat 第一步 第二步 第三步 ​ 编辑切换为居中 添加图片注释,不超过 140 字&#xff0…

HTML <small> 标签

定义和用法 <small> 标签呈现小号字体效果。 <small> 标签和它所对应的 <big> 标签一样&#xff0c;但它是缩小字体而不是放大。如果被包围的字体已经是字体模型所支持的最小字号&#xff0c;那么 <small> 标签将不起任何作用。 与 <big> 标签…

[保研/考研机试] KY80 进制转换 北京大学复试上机题 C++实现

题目链接&#xff1a; KY80 进制转换https://www.nowcoder.com/share/jump/437195121691735660774 描述 写出一个程序&#xff0c;接受一个十六进制的数值字符串&#xff0c;输出该数值的十进制字符串(注意可能存在的一个测试用例里的多组数据)。 输入描述&#xff1a; 输…

PhpOffice/PhpSpreadsheet读取和写入Excel

PhpSpreadsheet是一个纯PHP编写的组件库&#xff0c;它使用现代PHP写法&#xff0c;代码质量和性能比PHPExcel高不少&#xff0c;完全可以替代PHPExcel&#xff08;PHPExcel已不再维护&#xff09;。使用PhpSpreadsheet可以轻松读取和写入Excel文档&#xff0c;支持Excel的所有…

个人对智能家居平台选择的思考

本人之前开发过不少MicroPython程序&#xff0c;其中涉及到自动化以及局域网控制思路&#xff0c;也可以作为智能家居的实现方式。而NodeMCUESPHome的方案具有方便添加硬件、容易更新程序和容量占用小的优势&#xff0c;本人也查看过相关教程后感觉部署ESPHome和编译固件的步骤…

access怎么做进销存?借助access开发进销存管理应用

我不太推荐使用Access&#xff0c;因为他的缺点还是比较明显的&#xff1a; 1、软件自身限制 不能用于互联网&#xff1a;使用Access制作好的管理软件&#xff0c;访问页只能在局域网中使用&#xff1b;只能在Windows上运行&#xff1a;Access仅支持windows的运行环境&#x…

Promise的使用,及使用Promise封装axios

Promise的使用&#xff0c;及使用Promise封装axios Promise是什么&#xff1f;Promise的使用使用Promise封装请求 Promise是什么&#xff1f; Promise是JavaScript中用于处理异步操作的一种编程模式。它是一种表示异步操作最终完成或失败的对象。 一个Promise对象可以处于以下…

写一个函数返回参数二进制中 1 的个数(c语言三种实现方法)

&#xff08;本文旨在自己做题时的总结&#xff0c;我会给出不同的解法&#xff0c;后面如果碰到新的题目还会加入其中&#xff0c;等于是我自己的题库。 1.写一个函数返回参数二进制中 1 的个数。 比如&#xff1a; 15 0000 1111 4 个 1 方法一&#xff1a; #include…

【AI理论学习】手把手利用PyTorch实现扩散模型DDPM

手把手利用PyTorch实现扩散模型DDPM DDPM代码实现神经网络定义辅助函数位置嵌入ResNet block注意力模块分组归一化Conditional U-Net 定义前向扩散过程定义PyTorch数据集DataLoader采样训练模型采样后续阅读 参考链接 上一篇博文已经手把手推导了扩散模型DDPM&#xff0c;本文利…

java#CAS

CAS介绍 CAS 称 自旋锁&#xff0c;无锁&#xff0c; 比较并换&#xff0c;不用加锁也能保证原子性 CAS 的全称 为 Compare-And-Swap 它是一条CPU并发原语它的功能是判断内存某个位置的值是 否为预期值&#xff0c;如果是则更改为新的值&#xff0c;这个过程是原子 C…

什么是Java中的Builder模式?

Java中的Builder模式是一种结构型设计模式&#xff0c;它允许你将一个复杂对象的构建过程分解为多个步骤&#xff0c;使得客户端可以按照一定的顺序构建对象&#xff0c;而无需在每个步骤中都进行实例化。这种模式有助于隐藏对象的构造过程&#xff0c;使得代码更加清晰、易于理…

Linux cond_resched()简介

文章目录 简介一、cond_resched1.1 _cond_resched1.2 should_resched1.2.1 __preempt_count&#xff1a;1.2.2 函数说明 1.3 preempt_schedule_common1.3.1 preempt_schedule_common1.3.2 preempt_latency_start/stop 1.3.3 preempt_disable_notrace 参考资料 简介 Linux 内核…

【mysql】—— 表的约束

目录 序言 &#xff08;一&#xff09;空属性 &#xff08;二&#xff09;默认值 &#xff08;三&#xff09;列描述 &#xff08;四&#xff09;zerofill &#xff08;五&#xff09;主键 &#xff08;六&#xff09;自增长 &#xff08;七&#xff09;唯一键 &#…

Angular安全专辑 —— CSP防止XSS攻击

什么是 CSP&#xff08;Content Security Policy&#xff09; CSP&#xff08;Content Security Policy&#xff09;是一种Web安全策略&#xff0c;用于减轻和防止跨站脚本攻击&#xff08;XSS&#xff09;等安全漏洞。它通过允许网站管理员定义哪些资源可以加载到网页中&#…

在序列化、反序列化下如何保持单例(Singleton)模式

1、序列化、反序列化 在 Java 中&#xff0c;当一个对象被序列化后再被反序列化&#xff0c;通常情况下会创建一个新的对象实例。这是因为序列化将对象的状态保存到字节流中&#xff0c;而反序列化则是将字节流重新转化为对象。在这个过程中&#xff0c;通常会使用类的构造函数…

Node.js:path文件路径操作模块

path 用于文件路径操作 官方文档 https://nodejs.org/api/path.html 一个不错的解释 ┌─────────────────────┬────────────┐│ dir │ base │├──────┬ ├──────┬─────┤│ ro…

vue强制刷新变量

在前端开发中&#xff0c;我们经常需要变量的值实时响应到界面上。Vue就是一个非常强大的前端框架&#xff0c;它的数据绑定能够非常好地实现变量与界面的同步更新。但是有时候&#xff0c;我们需要强制刷新某个变量的值&#xff0c;以便界面能及时地反映出它的变化。本文将介绍…

面试热题(LRU缓存)

请你设计并实现一个满足 LRU (最近最少使用) 缓存 约束的数据结构。 实现 LRUCache 类&#xff1a; LRUCache(int capacity) 以 正整数 作为容量 capacity 初始化 LRU 缓存int get(int key) 如果关键字 key 存在于缓存中&#xff0c;则返回关键字的值&#xff0c;否则返回 -1 …

如何在页面中嵌入音频和视频?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ 嵌入音频⭐ 嵌入视频⭐ 写在最后 ⭐ 专栏简介 前端入门之旅&#xff1a;探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何带你启航前端之旅 欢迎来到前端入门之旅&#xff01;这个专栏是为那些对Web开发感兴趣、刚刚踏…

自监督学习的概念

Self-Supervised Learning (SSL)的主要思想是解决先验任务来学习特征提取器&#xff0c;在不使用标签的情况下生成有用的表示。 这里先验任务是指&#xff0c; 先使用原始数据和特征提取器来提取出 数据的有效表示&#xff0e; 对比方法(即对比学习&#xff0c; Contrastiv…