【机器学习】股票数据爬取与展示分析

数据爬取

  • 一、爬取原理
  • 二、代码实践
    • 2.1 股票列表获取
    • 2.1.1 确定待爬取网页
    • 2.1.2 向网页发送请求获取页面响应
    • 2.1.3 文本转换成JSON
    • 2.1.4 将数据保存到csv文件中
    • 2.2 股票数据获取
  • 三、结果分析

一、爬取原理

request库的原理
本文中主要使用的就是Python的request库,这个库基于HTTP请求实现,使用步骤为如下四个:

  • 发起请求: 通过HTTP库向目标站点发起请求,等待目标站点服务器响应。
  • 获取响应: 若服务器正常响应,会返回一个Response,该Response即为获取得页面内容,Response可以是HTML、JSON字符串、二进制数据等数据类型。
  • 解析内容: 利用正则表达式、网页解析库对HTML进行解析;将json数据转为JSON对象进行解析;保存我们需要得二进制数据(图片、视频)。
  • 保存数据: 可将爬取并解析后的内容保存为文本,或存至数据库等。

二、代码实践

我们以最有趣的股票数据爬取来进行代码实践,说不定未来AI算法在股票分析领域大放异彩可以用来赚钱呢哈哈😊:

2.1 股票列表获取

2.1.1 确定待爬取网页

这里以东方财富为例,其他的都殊途同归😁
在这里插入图片描述
可能我们仅仅想要创业板块的数据,单独选择这个面板,然后右键鼠标选择检查页面。
创业板
在点击检查以后就会出现以下的内容,这里面的代码就是用于请求的时候要请求的内容:
在这里插入图片描述
在这里插入图片描述
这里红色框框出来的部分就是等下爬虫的时候要用到的地址api😎

2.1.2 向网页发送请求获取页面响应

## 要请求的网页:http://quote.eastmoney.com/center/gridlist.htmldef get_html(url):"""args:url: 请求的网页地址return:html: 请求到的网页内容"""# 请求网页, 随机生成一个User-Agentr = requests.get(url, headers = {'User-Agent': UserAgent().random}) # 自动获取网页的编码方式r.encoding = r.apparent_encoding # 返回网页内容return r.text # 设置请求记录数量
num = 10 
# 设置请求的网页地址
stock_url = 'http://20.push2.eastmoney.com/api/qt/clist/get?cb=jQuery1124015648513440542944_1729931309203&pn=1&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&dect=1&wbp2u=|0|0|0|web&fid=f3&fs=m:0+t:80&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1729931309454:formatted'.format(num)
# 请求网页
stock_html_text = get_html(stock_url)
# 打印请求到的网页内容
print(stock_html_text)

这里需要注意在直接复制过来的url后面需要加上一个format(num)用来限制爬取的数据数量。

2.1.3 文本转换成JSON

# 将原始的文本按照括号进行分割
json_text = stock_html_text.split('(')[1].split(')')[0]
# 将json文本转换为字典
stock_dict = json.loads(json_text)
# 打印字典
print(stock_dict)
# 提取股票信息,data是一个字典,diff是一个列表
stock_list = stock_dict['data']['diff']
# 数据解析
data_list = []
# 遍历股票列表
for data in stock_list:row = [data["f12"], data["f14"]]data_list.append(row)
# 打印数据
print(data_list)

2.1.4 将数据保存到csv文件中

f = open('dataset/stock.csv', 'w', encoding='utf-8', newline='')
writer = csv.writer(f)
writer.writerow(['股票代码', '股票名称'])
for data in data_list:writer.writerow(data)
f.close()

在这里插入图片描述

2.2 股票数据获取

首先需要选定一个股票数据网站:

  • https://money.finance.sina.com.cn/quotes_service/api/json_v2.php/CN_MarketData.getKLineData?symbol=sz301613&scale=5&ma=5&datalen=1023
    以这个网站为例,只需要修改301613股票代码就可以了。
import csv
import urllib.request as r
import threading#读取之前获取的个股csv丢入到一个列表中
def getStockList():stockList = []f = open('dataset/stock.csv','r',encoding='utf-8')f.seek(0)reader = csv.reader(f)for item in reader:stockList.append(item)f.close()return stockListdef downloadFile(url,filepath):# print(filepath)try:r.urlretrieve(url,filepath)except Exception as e:print(e)print(filepath,"is downloaded")pass#设置信号量,控制线程并发数
sem = threading.Semaphore(1)
def downloadFileSem(url,filepath):with sem:downloadFile(url,filepath)urlStart = 'http://money.finance.sina.com.cn/quotes_service/api/json_v2.php/CN_MarketData.getKLineData?symbol=sz'
urlEnd = '&scale=5&ma=5&datalen=1023'if __name__ == '__main__':stockList = getStockList()stockList.pop(0)print(stockList)for s in stockList:scode = str(s[0].split("\t")[0])#0:沪市;1:深市url = urlStart + scode + urlEndprint(url)filepath = "dataset/" + (str(s[1].split("\t")[0]) + "_" + scode) + ".json"threading.Thread(target=downloadFileSem,args=(url,filepath)).start()

在这里插入图片描述

三、结果分析

import pandas as pd
import matplotlib.pyplot as plt# 从JSON文件加载数据
file_path = 'dataset/中科电气_300035.json'
df = pd.read_json(file_path)# 将'day'列转换为datetime类型
df['day'] = pd.to_datetime(df['day'])# 设置'day'列为索引
df.set_index('day', inplace=True)# 将数值列转换为浮点型
df[['open', 'high', 'low', 'close', 'volume']] = df[['open', 'high', 'low', 'close', 'volume']].astype(float)# 绘制收盘价随时间变化的图像
plt.figure(figsize=(12, 6))
plt.plot(df.index, df['close'], label='Close Price')
plt.xlabel('Date')
plt.ylabel('Price')
plt.title('Stock Close Price Over Time')
plt.legend()
plt.grid(True)
plt.show()

通过调用matplotlib库对爬取的数据进行分析可以绘制如下的图像:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/57840.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Task :prepareKotlinBuildScriptModel UP-TO-DATE,编译卡在这里不动或报错

这里写自定义目录标题 原因方案其他思路 原因 一般来说,当编译到这个task之后,后续是要进行一些资源的下载的,如果你卡在这边不动的话,很有可能就是你的IDE目前没有办法进行下载。 方案 开关一下IDE内部的代理,或者…

Jetpack架构组件_LiveData组件

1.LiveData初识 LiveData:ViewModel管理要展示的数据(VM层类似于原MVP中的P层),处理业务逻辑,比如调用服务器的登陆接口业务。通过LiveData观察者模式,只要数据的值发生了改变,就会自动通知VIEW层&#xf…

【Spring】详解SpringMVC,一篇文章带你快速入门

目录 一、初始MVC 二、SpringMVC 三、Spring MVC的运用 ⭕RequestMapping ⭕传递参数 1、传递单个参数 2、传递多个参数 3、参数重命名 4、传递数组与集合 5、获取路径参数 6、传递JSON数据 7、上传文件 一、初始MVC MVC(Model-View-Controller&#…

在不能联网的电脑上安装库(PyEMD为例)

1、查看PyEMD需要什么依赖 需要numpy、pathos、scipy、tqdm依赖,我电脑上有了numpy, scipy,以另外两个为例 2、查看依赖的依赖 查看依赖是否还要依赖 可以看到pathos还要这四个依赖,以此类推,看还要哪些依赖,直至req…

Mac 使用脚本批量导入 Apple 歌曲

最近呢,买了一个 iPad,虽然家里笔记本台式都有,显示器都是 2个,比较方便看代码(边打游戏边追剧)。 但是在床上拿笔记本始终还是不方便,手机在家看还是小了点,自从有 iPad 之后&…

【Java】java 集合框架(详解)

📃个人主页:island1314 ⛺️ 欢迎关注:👍点赞 👂🏽留言 😍收藏 💞 💞 💞 1. 概述 🚀 🔥 Java集合框架 提供了一系列用于存储和操作…

实现uniapp天地图边界范围覆盖

在uniapp中,难免会遇到使用地图展示的功能,但是百度谷歌这些收费的显然对于大部分开源节流的开发者是不愿意接受的,所以天地图则是最佳选择。 此篇文章,详细的实现地图展示功能,并且可以自定义容器宽高,还可…

java项目之电影评论网站(springboot)

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的电影评论网站。项目源码以及部署相关请联系风歌,文末附上联系信息 。 项目简介: 电影评论网站的主要使用者管…

UE5 源码学习 初始化

跟着 https://www.cnblogs.com/timlly/p/13877623.html 学习 入口函数 UnrealEngine\Engine\Source\Runtime\Launch\Private\Windows\LaunchWindows.cpp WinMain 入口 int32 WINAPI WinMain(_In_ HINSTANCE hInInstance, _In_opt_ HINSTANCE hPrevInstance, _In_ char* p…

8.three.js相机详解

8.three.js相机详解 1、 认识相机 在Threejs中相机的表示是THREE.Camera,它是相机的抽象基类,其子类有两种相机,分别是正投影相机THREE.OrthographicCamera和透视投影相机THREE.PerspectiveCamera: 正投影和透视投影的区别是&am…

Excel:vba实现生成随机数

Sub 生成随机数字()Dim randomNumber As IntegerDim minValue As IntegerDim maxValue As Integer 设置随机数的范围(假入班级里面有43个学生,学号是从1→43)minValue 1maxValue 43 生成随机数(在1到43之间生成随机数)randomNumber Application.WorksheetFunctio…

element 按钮变形 el-button样式异常

什么都没动,element UI的按钮变形了,莫名其妙,连官网的也变形了,换了其它浏览器又正常, 难道这是element UI的问题?NO,是浏览器的插件影响到了!去扩展插件里面一个个关闭扩展&#x…

时间序列预测(十)——长短期记忆网络(LSTM)

目录 一、LSTM结构 二、LSTM 核心思想 三、LSTM分步演练 (一)初始化 1、权重和偏置初始化 2、初始细胞状态和隐藏状态初始化 (二)前向传播 1、遗忘门计算(决定从上一时刻隐状态中丢弃多少信息) 2、…

CSS 样式 box-sizing: border-box; 用于控制元素的盒模型如何计算宽度和高度

文章目录 box-sizing: border-box; 的含义默认盒模型 (content-box)border-box 盒模型 在微信小程序中的应用示例 在微信小程序中,CSS 样式 box-sizing: border-box; 用于控制元素的盒模型如何计算宽度和高度。具体来说, box-sizing: border-box; 会改…

使用TimeShift备份和恢复Ubuntu Linux

您是否曾经想过如何备份和恢复您的Ubuntu或Debian系统?TimeShift是一个强大的备份和还原工具。TimeShift允许您创建系统快照,提供了一种在出现意外问题或系统故障时恢复到先前状态的简便方式。您可以使用RSYNC或BTRFS创建快照。 有了这个介绍&#xff0…

SSM 图书馆借还系统-计算机设计毕业源码24465

目 录 摘要 1 绪论 1.1 研究背景 1.2 研究意义 1.3论文章节安排 2相关技术介绍 2.1 B/S结构 2.2 SSM框架 2.3 MySQL数据库 3系统分析 3.1 可行性分析 3.2 系统功能性分析 3.3.非功能性分析 3.4 系统用例分析 3.5系统流程分析 3.5.1 用户登录流程 3.5.2 数据删…

中小企业设备资源优化:Spring Boot系统实现

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常…

ruoyi域名跳转缓存冲突问题(解决办法修改:session名修改session的JSESSIONID名称)

【版权所有,文章允许转载,但须以链接方式注明源地址,否则追究法律责任】【创作不易,点个赞就是对我最大的支持】 前言 仅作为学习笔记,供大家参考 总结的不错的话,记得点赞收藏关注哦! 目录 前…

Prism 四事件聚合器

#1024程序员节|征文# 不废话,直接上代码一个简单的示例。 1、事件聚合 创建一个文件夹EventBLL,添加EventDemo.cs,代码如下。 using System; using System.Collections.Generic; using System.Linq; using System.Text; using …

linux中级wed服务器(https搭建加密服务器)

一。非对称加密算法: 公钥:公共密钥,开放 私钥:私有密钥,保密 1.发送方用自己的公钥加密,接受方用发送方的私钥解密:不可行 2.发送方用接受方的公钥加密,接受方用自己的私钥解密…