实地研究降本增效的杀伤力,LSTM算法实现全国失业率分析预测

前言

降本增效=降本增笑?增不增效暂且不清楚,但是这段时间大厂的产品频繁出现服务器宕机和产品BUG确实是十分增笑。目前来看降本增效这一理念还会不断渗透到各行各业,不单单只是互联网这块了,那么对于目前就业最为严峻的一段时期,我们能够对失业率有个全面的了解是最好的情况,所以基于此理念我们来拟定一个失业率预测分析这一微项目。

我们将会从数据获取–数据处理–LSTM建模–预测检测这四个流程依次进行最终得到一个较为合理准确的数据,当然该预测率的准确度是依赖获取到的官方数据的,至于数据真实性这个不作过多解释~大家只要了解建模过程如何和LSTM模型如何使用就好。

博主现任高级人工智能工程师,理解各类模型原理以及每种模型的建模流程和各类题目分析方法。写文章的目的就是为了让零基础快速使用各类代码模型,保证每篇文章都为用心撰写。

且每篇文章我都会尽可能将简化涉及到垂直领域的专业知识,转化为大众小白可以读懂易于理解的知识,将繁杂的程序创建步骤逐个拆解,以逐步递进的方式由难转易逐渐掌握并实践,欢迎各位学习者关注博主,博主将不断创作技术实用前沿文章。

数据获取

不查不知道,一查确实还是挺有意思的数据,想要获取官方数据可以直接访问国家数据网站。
全国失业率统计数据因为是官方的数据所以就默认为真实情况,就不用进行数据清洗工程了。

数据预览

# 转换为DataFrame
df = pd.DataFrame(data)# 将日期转换为时间序列,并设为索引
df['日期'] = pd.to_datetime(df['日期'], format='%Y年%m月')
df.set_index('日期', inplace=True)# 由于数据是逆序的,我们需要将其反转以正确地展示时间序列
df = df.iloc[::-1]df

请在此添加图片描述

我们再来数据可视化帮我们更具体的看清楚整个数据的全貌:

# 绘制线图
plt.figure(figsize=(10, 6))  # 设置图形大小
plt.plot(df.index, df['全国城镇调查失业率(%)'], marker='o', label='全国城镇调查失业率(%)')
plt.plot(df.index, df['全国城镇本地户籍劳动力失业率(%)'], marker='s', label='全国城镇本地户籍劳动力失业率(%)')
plt.plot(df.index, df['全国城镇外来户籍劳动力失业率(%)'], marker='^', label='全国城镇外来户籍劳动力失业率(%)')# 设置图表标题和标签
plt.title('不同类型失业率的时间序列变化')
plt.xlabel('日期')
plt.ylabel('失业率(%)')
plt.xticks(rotation=45)  # 旋转x轴标签以避免重叠
plt.legend()  # 显示图例# 显示图表
plt.tight_layout()  # 自动调整子图参数, 使之填充整个图像区域
plt.show()

请在此添加图片描述

LSTM建模

请在此添加图片描述

那么现在我们可以来预测未来三个月的失业率到底如何,构建一个LSTM模型来预测未来三个月的失业率是一个典型的时间序列预测任务。使用PyTorch框架进行此类预测需要几个步骤:数据预处理、定义LSTM模型、训练模型、以及最后的预测。下面我会概述这个过程的每个步骤,并提供相应的示例代码。

步骤 1: 数据预处理

时间序列预测的第一步通常涉及到数据的预处理,包括标准化/归一化数据和创建适合于监督学习的时间序列数据集。

from sklearn.preprocessing import MinMaxScaler
import numpy as np
import torch# 假设df是包含失业率时间序列的DataFrame# 选择一个列作为预测目标
data = df['全国城镇调查失业率(%)'].values.reshape(-1, 1)# 数据标准化
scaler = MinMaxScaler(feature_range=(-1, 1))
data_normalized = scaler.fit_transform(data)# 创建数据集
def create_dataset(data, look_back=1):dataX, dataY = [], []for i in range(len(data)-look_back):a = data[i:(i+look_back), 0]dataX.append(a)dataY.append(data[i + look_back, 0])return np.array(dataX), np.array(dataY)look_back = 3  # 使用3个月的数据来预测下一个月
X, y = create_dataset(data_normalized, look_back)
X = X.reshape(X.shape[0], 1, X.shape[1])  # 为了LSTM输入,需要转换为[samples, time steps, features]# 转换为PyTorch张量
X_torch = torch.from_numpy(X).float()
y_torch = torch.from_numpy(y).float()

步骤 2: 定义LSTM模型

在PyTorch中定义一个简单的LSTM模型。

import torch.nn as nnclass LSTMModel(nn.Module):def __init__(self, input_size=1, hidden_layer_size=100, output_size=1):super().__init__()self.hidden_layer_size = hidden_layer_sizeself.lstm = nn.LSTM(input_size, hidden_layer_size)self.linear = nn.Linear(hidden_layer_size, output_size)self.hidden_cell = (torch.zeros(1,1,self.hidden_layer_size),torch.zeros(1,1,self.hidden_layer_size))def forward(self, input_seq):lstm_out, self.hidden_cell = self.lstm(input_seq.view(len(input_seq) ,1, -1), self.hidden_cell)predictions = self.linear(lstm_out.view(len(input_seq), -1))return predictions[-1]

步骤 3: 训练模型

接下来,定义训练循环来训练LSTM模型。

model = LSTMModel(input_size=3, hidden_layer_size=100, output_size=1)  # 确保这里的参数与你的数据匹配
loss_function = nn.MSELoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)epochs = 150
for epoch in range(epochs):total_loss = 0for seq, labels in zip(X_torch, y_torch):optimizer.zero_grad()# 根据修改后的模型,不再需要外部初始化hidden_celly_pred = model(seq.unsqueeze(0))  # 增加一个批次维度single_loss = loss_function(y_pred, labels.unsqueeze(0))  # 标签也需要增加一个批次维度single_loss.backward()optimizer.step()total_loss += single_loss.item()if epoch % 25 == 0:print(f'epoch: {epoch:3} loss: {total_loss/len(X_torch):10.8f}')

训练误差:

epoch:   0 loss: 0.50735911
epoch:  25 loss: 0.09428047
epoch:  50 loss: 0.08110558
epoch:  75 loss: 0.06782570
epoch: 100 loss: 0.05745859
epoch: 125 loss: 0.05270799

模型预测

基于前面讨论的步骤和代码,使用训练好的LSTM模型和最近几个月的数据来预测未来三个月的失业率。这个过程大致分为以下几步:

  1. 使用最近的数据:基于look_back参数,从最新的数据开始预测。
  2. 进行预测:利用模型预测下一个时间点的值。
  3. 更新输入数据:将预测值添加到输入数据中,用于下一步的预测。
  4. 重复预测过程:重复步骤2和3,直到预测了所需的未来时间点的数据。
# 如果look_back=3,我们取最后3个已知时间点的数据
input_data_normalized = data_normalized[-look_back:].reshape((1, 1, look_back))# 转换为PyTorch张量
input_data_tensor = torch.from_numpy(input_data_normalized).float()# 存储预测结果
predictions_normalized = []# 进行未来三个月的预测
for _ in range(3):  # 预测未来三个月with torch.no_grad():  # 不计算梯度# 预测下一个时间点pred = model(input_data_tensor)predictions_normalized.append(pred.numpy().flatten()[0])  # 存储预测结果# 更新输入数据input_data_tensor = torch.cat((input_data_tensor[:, :, 1:], pred.unsqueeze(0)), dim=2)# 将预测结果逆标准化
predictions = scaler.inverse_transform(np.array(predictions_normalized).reshape(-1, 1))print("预测的未来三个月失业率:", predictions.flatten())
预测的未来三个月失业率: [5.226562  5.1846743 5.1323695]

这个过程假定input_data_normalized包含了用于开始预测的最后look_back个时间点的数据,已经是标准化形式。每次预测后,我们都会更新这个输入数据,将最新的预测值添加进去,同时移除最旧的数据点,以便于下一次预测。预测完成后,我们使用与训练数据相同的MinMaxScaler实例scaler来逆标准化预测结果,以获取原始尺度上的预测值。

确保在进行预测之前,model已经在相似的数据上训练并且达到了满意的性能。预测的这个值大家看个乐呵就行不要太较真~

点关注,防走丢,如有纰漏之处,请留言指教,非常感谢

以上就是本期全部内容。我是fanstuck ,有问题大家随时留言讨论 ,我们下期见。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/755401.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

zynq7000 neon 裸机编译

最近想用zynq7000跑下neon,所以就开始折腾。 因为ne10不能用在裸机上,所以盯上了cmsis_dsp。因为这个库可以在cortex-a和cortex-m上面跑,而zynq7000用的是cortex-a9。应该是可以跑的。在这里特别感谢大佬的文章,少走不少弯路。 …

Cinema 4D 2024 for mac/Win:开启三维动画与建模新纪元

在数字化时代,三维动画与建模已成为影视、游戏、广告等多个领域不可或缺的创作工具。而Cinema 4D,作为这一领域的佼佼者,始终以其卓越的性能和创新的功能引领着行业的发展。如今,Cinema 4D 2024的发布,更是为我们带来了…

键盘映射工具KeyTweak的使用,把F9和F10改为 Home、End

如果你的笔记本没有Home、End键 对于写文字和写代码影响还是比较大的 下面使用键盘映射工具KeyTweak 把F9和F10分别改为 Home、End 然后点击ok 电脑重启后 就生效了 很好用 完美解决 小尺寸笔记本 的按键少的烦恼 可以自己再琢磨琢磨 去映射 符合自己需求的按键 软件下载链接&…

【早鸟优惠|高录用|EI稳定检索】2024年虚拟现实、图像和信号处理国际学术会议(ICVISP 2024)诚邀投稿/参会!

【早鸟优惠|高录用|EI稳定检索】 2024年虚拟现实、图像和信号处理国际学术会议(ICVISP 2024)诚邀投稿/参会! # 早鸟优惠 # 先投稿先送审 # #投稿免费参会、口头汇报及海报展示# 2024年虚拟现实、图像和信号处理国际学术会议(I…

Golang案例开发之gopacket抓包入门(1)

文章目录 前言一、gopacket是什么?二、gopacket前提二、实践 枚举主机上网络设备的接口1、代码2、结果文档 总结 前言 说起网络抓包,我们一定听过大名鼎鼎的Tcpdump和WireShark。他们分别是Linux平台和Windows平台的抓包工具。 Wireshark抓包工具&…

杉德支付配合调查 - 数字藏品服务

最近,数字收藏品平台淘派发布了一则公告,宣布支付通道杉德已暂停接口服务,以配合调查。 近期发现多个异常账户,涉嫌盗取他人信息和银行卡,利用平台从事非法交易。淘派已第一时间报警,协助警方追回资金(回执…

idea maven 项目融合

背景 :项目A 和项目B 是两个独立的多模块项目,项目A 和项目B ,均为独立的数据源 。其中项目B 有两个数据原。 需要将项目B 以多模块的方式融合进项目A。 解决版本。建立项目C,只含有pom的,空项目,项目A和项…

RPM与DNF的操作实践

这几课有三个目标: 第一步:先配置软件源 跳转到yum.repos.d目录,用vim创建一个openeuler_x84_64.repo文件。这个文件就是我们将会用到的软件源。 我们在里面添加这些东西,保存并退出即可。 然后,我们用yum list all就…

阿里云发布 AI 编程助手 “通义灵码”——VSCode更强了 !!

文章目录 什么是 通义灵码(TONGYI Lingma) 快速体验“通义灵码” 什么是“通义灵码”(TONGYI Lingma) 通义灵码(TONGYI Lingma),是阿里云出品的一款基于通义大模型的智能编码辅助工具&#xff…

C语言字符函数和字符串函数以及内存函数(全是代码版):一篇文章让你秒懂基础!

JAMES别扣了-CSDN博客(个人主页) 💕在校大学生一枚。对IT有着极其浓厚的兴趣 ✨系列专栏目前为C语言初阶、后续会更新c语言的学习方法以及c题目分享. 😍希望我的文章对大家有着不一样的帮助,欢迎大家关注我&#xff0c…

【Java常用API】正则表达式练习

🍬 博主介绍👨‍🎓 博主介绍:大家好,我是 hacker-routing ,很高兴认识大家~ ✨主攻领域:【渗透领域】【应急响应】 【Java】 【VulnHub靶场复现】【面试分析】 🎉点赞➕评论➕收藏 …

Excel新函数TEXTJOIN太强大了,这些高级用法太实用了

今天跟大家分享WPS中新函数TEXTJOIN的使用方法和技巧,它不仅仅是一个强大的文本连接函数,还有一些高级用法可以帮助我们快速解决日常难题。 TEXTJOIN函数介绍 作用:TEXTJOIN函数是文本连接函数,使用分隔符连接列表或文本字符串区…

【C++】手撕AVL树

> 作者简介:დ旧言~,目前大二,现在学习Java,c,c,Python等 > 座右铭:松树千年终是朽,槿花一日自为荣。 > 目标:能直接手撕AVL树。 > 毒鸡汤:放弃自…

数媒大厦会议中心 成都数字产业园示范基地

数媒大厦会议中心,位于成都市金牛区国际数字影像产业园3楼区域,这里也是成都数字产业园示范基地的核心区域。该成都文创产业园及辐射周边配套公园用地约500亩,涵盖产业实训空间、产业实验室、数字资产交易平台、产业集群发展空间、双创孵化空…

工业智能网关的功能特点、应用及其对企业产生的价值-天拓四方

一、工业智能网关的功能特点 工业智能网关是一种具备数据采集、传输、处理能力的智能设备,它能够将工业现场的各种传感器、执行器、控制器等设备连接起来,实现设备间的信息互通与协同工作。同时,工业智能网关还具备强大的数据处理能力&#…

PR是啥?一篇文章学会Pull Request到底是干嘛的

PR?Pull Request 概念 PR,全称Pull Request(拉取请求),是一种非常重要的协作机制,它是 Git 和 GitHub 等代码托管平台中常见的功能。在开源项目中,Pull Request 被广泛用于参与社区贡献,从而促…

html--蝴蝶

<!DOCTYPE html> <html lang"en" > <head> <meta charset"UTF-8"> <title>蝴蝶飞舞</title> <link rel"stylesheet" href"https://cdnjs.cloudflare.com/ajax/libs/meyer-reset/2.0/reset.min.cs…

YOLOV5 改进:增加注意力机制模块(SE)

1、前言 本章将介绍yolov5的改进项目,为v5增加新的模块---注意力机制、SE模块 大部分更改的代码是重复的,只有少部分需要更改,下面会详细讲解 yolov5的yaml文件介绍:YOLOV5 模型:利用tensorboard查看网络结构和yaml文件介绍-CSDN博客 yolov5的模块更改,C3更改为C2f模块…

pgsql中按照逗号拆分成列

原始数据如下&#xff0c;要拆分dict_label字段&#xff1a; selectt_d.dict_sort,t_d.dict_label,t_d.dict_value from sys_dict_data t_d where t_d.dict_type qc_audit_type ORDER BY t_d.dict_sort 关键代码&#xff1a; split_part(t_d.dict_label,,,1) as mValue, sp…

递推算法C++

所谓递推&#xff0c;是指从已知的初始条件出发&#xff0c;依据某种递推关系&#xff0c;逐次推出所要求的各中间结果及最后结果。其中初始条件或是问题本身已经给定&#xff0c;或是通过对问题的分析与化简后确定。从已知条件出发逐步推到问题结果&#xff0c;此种方法叫顺推…