【机器学习】股票数据爬取与展示分析

数据爬取

  • 一、爬取原理
  • 二、代码实践
    • 2.1 股票列表获取
    • 2.1.1 确定待爬取网页
    • 2.1.2 向网页发送请求获取页面响应
    • 2.1.3 文本转换成JSON
    • 2.1.4 将数据保存到csv文件中
    • 2.2 股票数据获取
  • 三、结果分析

一、爬取原理

request库的原理
本文中主要使用的就是Python的request库,这个库基于HTTP请求实现,使用步骤为如下四个:

  • 发起请求: 通过HTTP库向目标站点发起请求,等待目标站点服务器响应。
  • 获取响应: 若服务器正常响应,会返回一个Response,该Response即为获取得页面内容,Response可以是HTML、JSON字符串、二进制数据等数据类型。
  • 解析内容: 利用正则表达式、网页解析库对HTML进行解析;将json数据转为JSON对象进行解析;保存我们需要得二进制数据(图片、视频)。
  • 保存数据: 可将爬取并解析后的内容保存为文本,或存至数据库等。

二、代码实践

我们以最有趣的股票数据爬取来进行代码实践,说不定未来AI算法在股票分析领域大放异彩可以用来赚钱呢哈哈😊:

2.1 股票列表获取

2.1.1 确定待爬取网页

这里以东方财富为例,其他的都殊途同归😁
在这里插入图片描述
可能我们仅仅想要创业板块的数据,单独选择这个面板,然后右键鼠标选择检查页面。
创业板
在点击检查以后就会出现以下的内容,这里面的代码就是用于请求的时候要请求的内容:
在这里插入图片描述
在这里插入图片描述
这里红色框框出来的部分就是等下爬虫的时候要用到的地址api😎

2.1.2 向网页发送请求获取页面响应

## 要请求的网页:http://quote.eastmoney.com/center/gridlist.htmldef get_html(url):"""args:url: 请求的网页地址return:html: 请求到的网页内容"""# 请求网页, 随机生成一个User-Agentr = requests.get(url, headers = {'User-Agent': UserAgent().random}) # 自动获取网页的编码方式r.encoding = r.apparent_encoding # 返回网页内容return r.text # 设置请求记录数量
num = 10 
# 设置请求的网页地址
stock_url = 'http://20.push2.eastmoney.com/api/qt/clist/get?cb=jQuery1124015648513440542944_1729931309203&pn=1&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&dect=1&wbp2u=|0|0|0|web&fid=f3&fs=m:0+t:80&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1729931309454:formatted'.format(num)
# 请求网页
stock_html_text = get_html(stock_url)
# 打印请求到的网页内容
print(stock_html_text)

这里需要注意在直接复制过来的url后面需要加上一个format(num)用来限制爬取的数据数量。

2.1.3 文本转换成JSON

# 将原始的文本按照括号进行分割
json_text = stock_html_text.split('(')[1].split(')')[0]
# 将json文本转换为字典
stock_dict = json.loads(json_text)
# 打印字典
print(stock_dict)
# 提取股票信息,data是一个字典,diff是一个列表
stock_list = stock_dict['data']['diff']
# 数据解析
data_list = []
# 遍历股票列表
for data in stock_list:row = [data["f12"], data["f14"]]data_list.append(row)
# 打印数据
print(data_list)

2.1.4 将数据保存到csv文件中

f = open('dataset/stock.csv', 'w', encoding='utf-8', newline='')
writer = csv.writer(f)
writer.writerow(['股票代码', '股票名称'])
for data in data_list:writer.writerow(data)
f.close()

在这里插入图片描述

2.2 股票数据获取

首先需要选定一个股票数据网站:

  • https://money.finance.sina.com.cn/quotes_service/api/json_v2.php/CN_MarketData.getKLineData?symbol=sz301613&scale=5&ma=5&datalen=1023
    以这个网站为例,只需要修改301613股票代码就可以了。
import csv
import urllib.request as r
import threading#读取之前获取的个股csv丢入到一个列表中
def getStockList():stockList = []f = open('dataset/stock.csv','r',encoding='utf-8')f.seek(0)reader = csv.reader(f)for item in reader:stockList.append(item)f.close()return stockListdef downloadFile(url,filepath):# print(filepath)try:r.urlretrieve(url,filepath)except Exception as e:print(e)print(filepath,"is downloaded")pass#设置信号量,控制线程并发数
sem = threading.Semaphore(1)
def downloadFileSem(url,filepath):with sem:downloadFile(url,filepath)urlStart = 'http://money.finance.sina.com.cn/quotes_service/api/json_v2.php/CN_MarketData.getKLineData?symbol=sz'
urlEnd = '&scale=5&ma=5&datalen=1023'if __name__ == '__main__':stockList = getStockList()stockList.pop(0)print(stockList)for s in stockList:scode = str(s[0].split("\t")[0])#0:沪市;1:深市url = urlStart + scode + urlEndprint(url)filepath = "dataset/" + (str(s[1].split("\t")[0]) + "_" + scode) + ".json"threading.Thread(target=downloadFileSem,args=(url,filepath)).start()

在这里插入图片描述

三、结果分析

import pandas as pd
import matplotlib.pyplot as plt# 从JSON文件加载数据
file_path = 'dataset/中科电气_300035.json'
df = pd.read_json(file_path)# 将'day'列转换为datetime类型
df['day'] = pd.to_datetime(df['day'])# 设置'day'列为索引
df.set_index('day', inplace=True)# 将数值列转换为浮点型
df[['open', 'high', 'low', 'close', 'volume']] = df[['open', 'high', 'low', 'close', 'volume']].astype(float)# 绘制收盘价随时间变化的图像
plt.figure(figsize=(12, 6))
plt.plot(df.index, df['close'], label='Close Price')
plt.xlabel('Date')
plt.ylabel('Price')
plt.title('Stock Close Price Over Time')
plt.legend()
plt.grid(True)
plt.show()

通过调用matplotlib库对爬取的数据进行分析可以绘制如下的图像:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/57840.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GPT打数模——电商品类货量预测及品类分仓规划

背景 电商企业在各区域的商品存储主要由多个仓库组成的仓群承担。其中存储的商品主要按照属性(品类、件型等)进行划分和打标,便于进行库存管理。图 1 是一个简化的示意图,商品品类各异,件数众多,必须将这些…

Task :prepareKotlinBuildScriptModel UP-TO-DATE,编译卡在这里不动或报错

这里写自定义目录标题 原因方案其他思路 原因 一般来说,当编译到这个task之后,后续是要进行一些资源的下载的,如果你卡在这边不动的话,很有可能就是你的IDE目前没有办法进行下载。 方案 开关一下IDE内部的代理,或者…

Jetpack架构组件_LiveData组件

1.LiveData初识 LiveData:ViewModel管理要展示的数据(VM层类似于原MVP中的P层),处理业务逻辑,比如调用服务器的登陆接口业务。通过LiveData观察者模式,只要数据的值发生了改变,就会自动通知VIEW层&#xf…

C#里使用最高性的网络通讯例子

由于接收网络数据会不完整的包, 并且产生各种问题,导致大家都是使用最低效的内存保存数据,比如List<byte>这样的结构。 具体内容可以参考下面的大牛的文章: System.IO.Pipelines: High performance IO in .NET - .NET Blog (https://devblogs.microsoft.com/dot…

【Spring】详解SpringMVC,一篇文章带你快速入门

目录 一、初始MVC 二、SpringMVC 三、Spring MVC的运用 ⭕RequestMapping ⭕传递参数 1、传递单个参数 2、传递多个参数 3、参数重命名 4、传递数组与集合 5、获取路径参数 6、传递JSON数据 7、上传文件 一、初始MVC MVC&#xff08;Model-View-Controller&#…

在不能联网的电脑上安装库(PyEMD为例)

1、查看PyEMD需要什么依赖 需要numpy、pathos、scipy、tqdm依赖&#xff0c;我电脑上有了numpy, scipy&#xff0c;以另外两个为例 2、查看依赖的依赖 查看依赖是否还要依赖 可以看到pathos还要这四个依赖&#xff0c;以此类推&#xff0c;看还要哪些依赖&#xff0c;直至req…

2024.9.27华为笔试题解

第一题绩效互评人员分配 二分图判断模板,可以去看其他博客学习一下 #include <bits/stdc++.h> using namespace std;vector<int> GoodRelationships[105]; int color[105]; // 记录每个节点的颜色,0表示未染色,1和2表示不同的组 bool is_bipartite = true; …

【C】用c写贪吃蛇

1.输入正确的账号密码及其用户名&#xff0c;登录成功进入贪吃蛇游戏界面&#xff0c; 2.随机生成蛇头★、食物▲的位置(x,y)&#xff0c;并使用□打印地图 3.使用w s a d按键&#xff0c;完成蛇头的上下左右移动 4.蛇头碰撞到食物后&#xff0c;吃下食物变成蛇身的一部分●…

Mac 使用脚本批量导入 Apple 歌曲

最近呢&#xff0c;买了一个 iPad&#xff0c;虽然家里笔记本台式都有&#xff0c;显示器都是 2个&#xff0c;比较方便看代码&#xff08;边打游戏边追剧&#xff09;。 但是在床上拿笔记本始终还是不方便&#xff0c;手机在家看还是小了点&#xff0c;自从有 iPad 之后&…

【Java】java 集合框架(详解)

&#x1f4c3;个人主页&#xff1a;island1314 ⛺️ 欢迎关注&#xff1a;&#x1f44d;点赞 &#x1f442;&#x1f3fd;留言 &#x1f60d;收藏 &#x1f49e; &#x1f49e; &#x1f49e; 1. 概述 &#x1f680; &#x1f525; Java集合框架 提供了一系列用于存储和操作…

实现uniapp天地图边界范围覆盖

在uniapp中&#xff0c;难免会遇到使用地图展示的功能&#xff0c;但是百度谷歌这些收费的显然对于大部分开源节流的开发者是不愿意接受的&#xff0c;所以天地图则是最佳选择。 此篇文章&#xff0c;详细的实现地图展示功能&#xff0c;并且可以自定义容器宽高&#xff0c;还可…

java项目之电影评论网站(springboot)

风定落花生&#xff0c;歌声逐流水&#xff0c;大家好我是风歌&#xff0c;混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的电影评论网站。项目源码以及部署相关请联系风歌&#xff0c;文末附上联系信息 。 项目简介&#xff1a; 电影评论网站的主要使用者管…

UE5 源码学习 初始化

跟着 https://www.cnblogs.com/timlly/p/13877623.html 学习 入口函数 UnrealEngine\Engine\Source\Runtime\Launch\Private\Windows\LaunchWindows.cpp WinMain 入口 int32 WINAPI WinMain(_In_ HINSTANCE hInInstance, _In_opt_ HINSTANCE hPrevInstance, _In_ char* p…

8.three.js相机详解

8.three.js相机详解 1、 认识相机 在Threejs中相机的表示是THREE.Camera&#xff0c;它是相机的抽象基类&#xff0c;其子类有两种相机&#xff0c;分别是正投影相机THREE.OrthographicCamera和透视投影相机THREE.PerspectiveCamera&#xff1a; 正投影和透视投影的区别是&am…

R语言编程

一、R语言在机器学习中的优势 R语言是一种广泛用于统计分析和数据可视化的编程语言,在机器学习领域也有诸多优势。 丰富的包:R拥有大量专门用于机器学习的包。例如,caret包是一个功能强大的机器学习工具包,它提供了统一的接口来训练和评估多种机器学习模型,如线性回归、决…

Excel:vba实现生成随机数

Sub 生成随机数字()Dim randomNumber As IntegerDim minValue As IntegerDim maxValue As Integer 设置随机数的范围(假入班级里面有43个学生&#xff0c;学号是从1→43)minValue 1maxValue 43 生成随机数(在1到43之间生成随机数)randomNumber Application.WorksheetFunctio…

Vue学习笔记(六、跑马灯效果)

下面是一段跑马灯效果的代码&#xff1a; <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><title>VueBaseCode</title><script src"./lib/vue.js"></script> </head><b…

Python的两种循环结构和break与continue

在所有的循环中应当避免死循环的出现。死循环&#xff1a;条件始终为真的循环称为死循环在循环语句中&#xff0c;表达式永远为真&#xff0c;致循环持续执行程序无法终止。在开发的时候&#xff0c;死循环带来的麻烦是最直观最大的。 一. while循环 while循环的框架&#xff…

【大数据学习 | Zookeeper】Zookeeper服务端与客户端的工作流程

1. Zookeeper服务端 ZooKeeper 服务端通常是以集群的形式部署&#xff0c;这样可以提供高可用性和容错能力。ZooKeeper 集群中的每个节点都保存着几乎相同的数据副本&#xff08;除了领导者选举相关的数据&#xff09;。集群中有一个节点被选为领导者&#xff08;Leader&#…

element 按钮变形 el-button样式异常

什么都没动&#xff0c;element UI的按钮变形了&#xff0c;莫名其妙&#xff0c;连官网的也变形了&#xff0c;换了其它浏览器又正常&#xff0c; 难道这是element UI的问题&#xff1f;NO&#xff0c;是浏览器的插件影响到了&#xff01;去扩展插件里面一个个关闭扩展&#x…