深度学习-循环神经网络-LSTM对序列数据进行预测

 项目简介:

使用LSTM模型, 对文本数据进行预测, 

每次截取字符20, 对第二十一个字符进行预测, 

LSTM层: units=100, activation=relu

Dense层: units=输入的文本中的字符种类, 比如我使用的文本有644个不同的字符, 那么units=64

                激活函数: 因为是多分类, 使用softmax

                因为这是最后一层, 所以输出神经元的个数也就是644

# ===================================================================
# 1.数据导入和数据预处理
# 读入数据
txt_data= open(r"C:\Users\鹰\Desktop\AI Assistant.txt", encoding='utf-8').read()
# 数据预处理# 移除换行符
txt_data=txt_data.replace('\n','').replace('\r','').replace('#', '').replace('*','').replace('=','').replace('-','')
# print(txt_data)
# 字符去重
letters = list(set(txt_data))
# print(letters)
letters_num=len(letters)
# print(letters_num)# 建立字典,让字符与数字对应
# 话说int_to_char这个字典是干嘛的, 到底没看出
int_to_char={a:b for a,b in enumerate(letters)}
# print(int_to_char)char_to_int={b:a for a,b in enumerate(letters)}
# print(char_to_int)# 设定time_step=20, 就是每次在文本中截取的字符长度为20, 然后预测第二十一个
time_step=20# 滑动窗口提取数据--对字符数据进行截取转成列表给x, 将预测数据给y
def extract_char(data, slide):x=[]y=[]for i in range(len(data)-slide):x.append([a for a in data[i:i+slide]])y.append(data[i+slide])return x, y# 批量转化--将字符转化为数字
def char_to_int_data(x, y, char_to_int_dict):x_to_int=[]y_to_int=[]for i in range(len(x)):x_to_int.append([char_to_int_dict[char] for char in x[i]])y_to_int.append(char_to_int_dict[y[i]])return x_to_int, y_to_int# 实现文章的预处理, 参数--1.要处理的字符数据, 2.每次截取的字符长度, 3.进行转化的信息交换字典
def data_preprocessing(data, slide, letters_num, char_to_int_dict):# 提取滑动窗口数据char_data = extract_char(data, slide)int_data = char_to_int_data(char_data[0], char_data[1], char_to_int_dict)input_data = int_data[0]output_data = int_data[1]# 转换成 one-hot 编码input_reshape = np.array(input_data).reshape(len(input_data), slide)new = np.zeros((input_reshape.shape[0], input_reshape.shape[1], letters_num), dtype=bool)  # 使用 boolfor i in range(input_reshape.shape[0]):new[i, :, :] = to_categorical(input_reshape[i, :], num_classes=letters_num)# 将布尔值转换为 0 和 1new = new.astype(int)return new, output_data# 调用函数
x,y= data_preprocessing(txt_data, time_step, letters_num, char_to_int)print(x.shape)
print(x[0])
print(len(y))#数据集分割
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test=train_test_split(x, y, test_size=0.1, random_state=10)# 对训练集目标值转化为one-hot格式
y_train_category=to_categorical(y_train, letters_num)
print(y_train_category)
# ===================================================================================
# 2.模型搭建和模型训练
# 搭建模型
from keras.models import Sequential
LSTM_model=Sequential()
from keras.layers import LSTM, Dense
# 一会要不要调整一下神经元数量? 
LSTM_model.add(LSTM(units=100, input_shape=(x_train.shape[1], x_train.shape[2]), activation='relu'))
LSTM_model.add(Dense(units=letters_num, activation='softmax'))
LSTM_model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
LSTM_model.summary()# 训练模型
LSTM_model.fit(x_train, y_train_category, epochs=50, batch_size=64)# ===========================================================================
# 3.基于训练集和测试集进行预测和评估
# 训练集预测+评估
y_predict_base_train=LSTM_model.predict(x_train)
y_predict_base_train=np.argmax(y_predict_base_train, axis=1)
# 以数值类型输出预测结果
# print(y_predict_base_train)
y_predict_base_train_char=[int_to_char[i] for i in y_predict_base_train]
# 以字符类型输出结果
print(y_predict_base_test_char)
# 计算模型预测准确率
from sklearn.metrics import accuracy_score
accuracy_score=accuracy_score(y_train, y_predict_base_train)
print("accuracy is ", accuracy_score)# 测试集预测+评估
y_predict_base_test=LSTM_model.predict(x_test)
y_predict_base_test=np.argmax(y_predict_base_test, axis=1)
# 以数值类型输出预测结果
# print(y_predict_base_test)y_predict_base_test_char=[int_to_char[i] for i in y_predict_base_test]
# 以字符类型输出结果
# print(y_predict_base_test_char)# 计算模型预测准确率
from sklearn.metrics import accuracy_score
accuracy_score=accuracy_score(y_test, y_predict_base_test)
print("accuracy is ", accuracy_score)# 课外实践, ===========================================================================
# 4.实战预测: 输入"怎么样开发一个ai助手, 可以根据我提出的需求自动进行进行开发网站, 移动端app, 桌面应用程序,可以进行数据获取, 数据分析", 看看效果x_new="怎么样开发一个ai助手, 可以根据我提出的需求自动进行进行开发网站, 移动端app, 桌面应用程序,可以进行数据获取, 数据分析"
x_new, y_new= data_preprocessing(x_new, time_step, letters_num, char_to_int)
y_new_predict=LSTM_model.predict(x_new)
y_new_predict=np.argmax(y_new_predict, axis=1)
y_new_char=[int_to_char[i] for i in y_new]
print(y_new_char)
y_new_predict_char=[int_to_char[i] for i in y_new_predict]
print(y_new_predict_char)# 计算模型准确率
from sklearn.metrics import accuracy_score
accuracy_score=accuracy_score(y_new, y_new_predict)
print("accuracy is ", accuracy_score)# 注意哈, 原来的实战目标是输入"ai应用程序开发", 结果报错了, 因为这个模型之前规定time_step=20, 而"ai应用程序开发"这一串字符小于二十, 模型无法完成一次正常的截取, 当然会报错

作者的备注:

兄弟, 不是不想给你们准备数据集,

而是这个文件里面的数据对我用处很大,

原谅我

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/58019.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用Vue.js构建响应式Web应用

💖 博客主页:瑕疵的CSDN主页 💻 Gitee主页:瑕疵的gitee主页 🚀 文章专栏:《热点资讯》 使用Vue.js构建响应式Web应用 1 引言 2 Vue.js简介 3 安装Vue CLI 4 创建Vue项目 5 设计应用结构 6 创建组件 7 使用…

2024“源鲁杯“高校网络安全技能大赛-Misc-WP

Round 1 hide_png 题目给了一张图片,flag就在图片上,不过不太明显,写个python脚本处理一下 from PIL import Image ​ # 打开图像并转换为RGB模式 img Image.open("./attachments.png").convert("RGB") ​ # 获取图像…

GCN+BiLSTM多特征输入时间序列预测(Pytorch)

目录 效果一览基本介绍程序设计参考资料 效果一览 基本介绍 GCNBiLSTM多特征输入时间序列预测(Pytorch) 可以做风电预测,光伏预测,寿命预测,浓度预测等。 Python代码,基于Pytorch编写 1.多特征输入单步预测…

【大数据学习 | kafka】kafuka的基础架构

1. kafka是什么 Kafka是由LinkedIn开发的一个分布式的消息队列。它是一款开源的、轻量级的、分布式、可分区和具有复制备份的(Replicated)、基于ZooKeeper的协调管理的分布式流平台的功能强大的消息系统。与传统的消息系统相比,KafKa能够很好…

MySQL-DQL练习题

文章目录 简介初始化表练习题 简介 本节简介: 主要是一些给出一些习题, 关于DQL查询相关的, DQL查询语句是最重要的SQL语句, 功能性最复杂, 功能也最强, 所以本节建议适合以及有了DQL查询基础的食用, 另外注意我们使用的是Navicat, SQL编辑的格式规范也是Navicat指定的默认格式…

Android 15: 探索未来的可能性

Android 15: 探索未来的可能性 随着技术的不断进步,我们的智能手机系统也在不断地进化。Android 15,作为谷歌最新推出的操作系统版本,带来了一系列令人兴奋的新特性和改进,让我们的数字生活更加丰富多彩。本文将带你一探Android 15的新特性,感受科技的魅力。 低光增强:…

《云原生安全攻防》-- K8s攻击案例:权限维持的攻击手法

在本节课程中,我们将一起深入了解K8s权限维持的攻击手法,通过研究这些攻击手法的技术细节,来更好地认识K8s权限维持所带来的安全风险。 在这个课程中,我们将学习以下内容: K8s权限维持:简单介绍K8s权限维持…

安装OpenResty

OpenResty OpenResty 是一个基于 Nginx的高性能 Web 平台,用于方便地搭建能够处理超高并发、扩展性极高的动态 Web 应用、Web 服务和动态网关。具备下列特点: 具备Nginx的完整功能 基于Lua语言进行扩展,集成了大量精良的 Lua 库、第三方模块…

python多线程处理xlsx,多进程访问接口

import pandas as pd from concurrent.futures import ThreadPoolExecutor# 读取Excel文件 file_path scence.xlsx df pd.read_excel(file_path)# 定义每10行处理逻辑 def process_rows(start_idx):end_idx min(start_idx 10, len(df)) # 处理每10行for i in range(start_…

【Linux系统】进程终止

一、进程退出方式 1、正常终止 主要两种类型:从 main 返回、调用 exit 和 _exit 具体讲解如下: (1)从 main 返回 这个的使用就不用多说了吧,相信你们已经烂熟于心了 作用:return 语句用于从函数中返回…

一篇文章了解RocketMQ基础知识。

目录 一. 为什么选择了 RocketMQ ? 二. RocketMQ 介绍 名词说明 1. Topic (主题) 1.1 Topic 核心作用 1.2 Topic 常见问题 2. Tag (标签) 3. Queue (队列) 3.1 Queue 读写队列 4. Message (消息) 4.1 Message 类型 5. Produ…

NVR录像机汇聚管理EasyNVR多品牌NVR管理工具/设备视频报警功能详解

在科技日新月异的今天,视频监控系统作为现代社会的“第三只眼”,正以前所未有的方式深刻影响着我们的生活与社会结构。从公共场所的安全监控到个人生活的记录分享,视频监控系统以其独特的视角和功能,为社会带来了诸多好处&#xf…

day10:ssh服务-跳板机

一,ssh服务概述 ssh服务概述 ssh(Secure Shell)是一种用于在不安全网络中进行安全登录、远程执行命令及传输文件的网络协议。它通过加密技术来保证通信的保密性和完整性,主要用于替代不安全的telnet、rlogin、rsh等协议。ssh通常…

python爬虫实战案例——抓取B站视频,不同清晰度抓取,实现音视频合并,超详细!(内含完整代码)

文章目录 1、任务目标2、网页分析3、代码编写 1、任务目标 目标网站:B站视频(https://www.bilibili.com/video/BV1se41117WP/?vd_sourcee8e376ccbc5aa4cfd88e6a7917adfd1a),用于本文测验 要求:抓取该网址下的视频&…

【制造业&电子产品】电脑电子元件检测系统源码&数据集全套:改进yolo11-TADDH

改进yolo11-SCConv等200全套创新点大全:电脑电子元件检测系统源码&数据集全套 1.图片效果展示 项目来源 人工智能促进会 2024.10.24 注意:由于项目一直在更新迭代,上面“1.图片效果展示”和“2.视频效果展示”展示的系统图片或者…

Linux: network: wireshark IO图的一个问题

今天遇到一个问题,发现wireshark画的IO图,前几秒没有数据,但是根据Raw的pcap看,是有包的,这就迷惑了。 经同事提醒,这个IO在设置了多个画图filter的时候,可能导致开始前几秒没有输出。如下图 这…

jenkins ssh 免密报错Host key verification failed.

jenkins 发布项目,ssh连接远程服务器时报错:Host key verification failed. 解决: 原因是生成的sshkey不是用的jenkins用户,所以切换用户到:jenkins重新生成sshkey su jenkins ssh-keygen -t rsa ssh-copy-id -i ~/…

C# 串口通信教程

串口通信(Serial Communication)是一种用于设备之间数据传输的常见方法,通常用于与外部硬件设备(如传感器、机器人、微控制器)进行通信。在 C# 中,System.IO.Ports 命名空间提供了与串口设备交互的功能&…

mono源码交叉编译 linux arm arm64全过程

初级代码游戏的专栏介绍与文章目录-CSDN博客 我的github:codetoys,所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。 这些代码大部分以Linux为目标但部分代码是纯C的,可以在任何平台上使用。 源码指引:github源…

GPT-4o 和 GPT-4 Turbo 模型之间的对比

GPT-4o 和 GPT-4 Turbo 之间的对比 备注 要弄 AI ,不同模型之间的对比就比较重要。 GPT-4o 是 GPT-4 Turbo 的升级版本,能够提供比 GPT-4 Turbo 更多的内容和信息,但成功相对来说更高一些。 第三方引用 在 2024 年 5 月 13 日&#xff0…