【Python机器学习】循环神经网络(RNN)——超参数

几乎所有模型都可以根据数据和样本进行调整,它们都有各自的优势和相应的利弊权衡方式。寻找最优超参数集通常是一个棘手的问题,但是人类的直觉和经验可以为我们提供解决问题的方法。比如之前的例子:

#设置任意输入序列的最大长度
maxlen=100
#预训练的Word2vec模型维度
embedding_dims=300
#在进行反向传播算法之前要通过并聚合误差的样本序列的算法
batch_size=32
#训练周期个数
epochs=2
#隐藏层的复杂度
num_neurons=50

maxlen参数设置可能是这串参数中最大的问题。训练集在样本长度上变化很大。当我们强制将长度不超过100个词条的样本加上到400个词条,那么将1000个词条的样本截断到400个词条时,就会引入大量的噪声。改变这个数字对训练时间的影响比改变模型中的其他任何参数的影响都要打,单个样本的长度决定了误差需要再多长时刻内反向传播。对于循环神经网络,设置样本长度不是严格必要的。我们可以简单地将网络展开为样本所需的大小,在刚刚的例子中这种做法是必要的,因为我们把本身就是一个序列的输出传递到一个前馈层,而前馈层需要同样输出的大小。

embedding_dims值是由选择的Word2vec模型决定的,但是它应该是可以充分表示数据集的值。即使是像语料库中最常见的50个词条的独热编码这样简单的向量,可能也足以获得精确地预测。

与所有网络一样,增加batch_size可以加速训练,因为它减少了需要反向传播的次数(也就是计算上开销较大的部分)。折中的结果是,更大的批量增加了在局部极小值处停顿下来的可能。

epochs参数易于测试盒调优,只需再次运行训练过程即可。但是如果我们必须从头开始尝试每个新的epochs参数,那么就需要很多的耐心。Keras模型可以重新启动训练,并从停止的地方继续,只要我们在“停止”处保存了模型即可。要在以前训练过的模型上重新启动训练,要重新加载该模型盒数据集,并对数据调用model.fit()。Keras不会重新初始化权重,而是像从未停止过一般继续训练。

另一种对epochs参数进行调优的方法是添加一个名为EarlyStopping的Keras回调方法。通过向模型提供此方法,除非传递给EarlyStopping的度量指标超过了在回调方法中用于触发的某个阈值,否则模型将继续训练,直到达到我们锁清秋的周期数为止。一个常见的早停度量指标是连续几个周期验证精确率提高值。如果模型没有变得更好,通常就意味着是时候“断线”(断开链接)了。这个度量指标允许我们设置它并忘记它的存在。当模型达到我们的度量指标时,模型将停止训练。

num_neurous是一个重要的参数,上面建议随意地使用50个神经元。现在用100个神经元来进行训练和测试:

num_neurons=100
model=Sequential()
model.add(SimpleRNN(num_neurons,return_sequences=True,input_shape=(maxlen,embedding_dims)
))
model.add(Dropout(0.2))
model.add(Flatten())
model.add(Dense(1,activation='sigmoid'))
model.compile('rmsprop','binary_crossentropy',metrics=['accuracy'])
model.summary()

model.fit(X_train,y_train,batch_size=batch_size,epochs=epochs,validation_data=(X_test,y_test))

model_strucure=model.to_json()
with open('simplernn_model2.json','w') as json_file:json_file.write(model_strucure)
model.save_weights('simplernn_weights2.h5')

上述更大的网络相当于在num_neurous=50的网络的其中一层将模型的复杂度提高了一杯,其验证准确率为64.06%,仅提高一点点。这个微不足道的提高会让人觉得模型(对于这个网络层)对数据来说太复杂了。这个网络层可能有些太宽了。

下面是num_neurous=25的情况:

这类测试可能需要相当长的时间来培养一种直觉。我们可能会发现,随着训练时间的增加,有时一次改变一个参数会掩盖一次调整两个参数所带来的好处,任务的复杂度会越来越高。

如果我们觉得模型对训练数据过拟合,但又无法占到使模型更简单的方法,那么我们总是可以尝试增加模型中的Dropout()函数中的百分比参数。这是一种可以降低过拟合的方法,同时允许模型具备匹配数据所需的尽可能高的复杂度。如果我们把dropout百分比设置在50%以上,那么就会开始有学习上的困难,学习速度将会变慢,验证误差将会增多。

对许多NLP问题来说,循环网络的dropout百分比设置为20-50%是一个相当安全的范围。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/53963.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

鸿蒙 ArkUI组件二

ArkUI组件(续) 文本组件 在HarmonyOS中,Text/Span组件是文本控件中的一个关键部分。Text控件可以用来显示文本内容,而Span只能作为Text组件的子组件显示文本内容。 Text/Span组件的用法非常简单和直观。我们可以通过Text组件来显…

多模态大语言模型综述(中)-算法实用指南

本文是Multimodal Large Language Models: A Survey的译文之算法实用指南部分。 上:摘要、概念与技术要点实用指南中:算法实用指南(本文)下: 任务的实用指南(应用)、挑战等 原始信息 标题: Multimodal Large Language Models: A Survey译文: 多模态大…

拓扑排序算法

拓扑排序算法 上图意思为在我想要完成C7这件事之前我必须先完成事件C1,在完成C5这件事之前我必须先完成事件C6和C3.由图可以提看出拓扑序列是不唯一的。 有向图拓扑排序算法基本步骤: 1.从图中选择一一个入入度为0的顶点, 输出该顶点; 2.从图中删除该…

MutationObserver详解+案例——深入理解 JavaScript 中的 MutationObserver:原理与实战案例

目录 深入理解 JavaScript 中的 MutationObserver:原理与实战案例 一、MutationObserver 简介 二、MutationObserver 的工作原理 1、基本用法 2、observe 方法的配置项 三、实战案例 案例 1:监控动态内容加载 案例 2:监控属性变化 案…

springboot 项目获取 yaml/yml (或 properties)配置文件信息

文章目录 springboot 项目获取配置文件信息前言1、 Autowired 注入 Environment类2、基础用法,使用Value注解直接注入配置信息3、进阶方法(推荐使用)拓展:springboot 集成配置中心 - 以 Apollo 为例 springboot 项目获取配置文件信…

通信工程学习:什么是接入网(AN)中的TF传送功能

接入网(AN)中的TF传送功能 在通信工程中,TF(Transfer Function)传送功能是指为接入网(AN)不同位置之间提供通道和传输介质,以实现数据的有效传输。以下是关于TF传送功能的详细解释&a…

PMP--一模--解题--91-100

文章目录 13.干系人管理91、 [单选] 在项目执行期间,一名外部干系人反对一项重大范围变更。除非重新评估干系人的决定,否则项目进展将受到影响。项目经理下一步该怎么做? 5.范围管理92、 [单选] 一客户给你一复杂项目的采购工作说明书&#x…

配置全新服务器深度学习一套流程

目录 1.安装anaconda2.配置cuda3.配置cudnn4.配置新的pytorch环境5.安装rdkit包6.小问题记录 1.安装anaconda 直接参考视频 总结: 1.下载anaconda安装包,尽量不下载最新的版本 2.bash 对应安装包,一直回车,yes 3.配置环境vim ~/.…

实战千问2大模型第三天——Qwen2-VL-7B(多模态)视频检测和批处理代码测试

画面描述:这个视频中,一位穿着蓝色西装的女性站在室内,背景中可以看到一些装饰品和植物。她双手交叉放在身前,面带微笑,似乎在进行一场演讲或主持活动。她的服装整洁,显得非常专业和自信。 一、简介 阿里通义千问开源新一代视觉语言模型Qwen2-VL。其中,Qwen2-VL-72B在大…

在k8s中,客户端访问服务的链路流程,ingress--->service--->deployment--->pod--->container

ingress是一个API资源。 其核心作用是nginx网页服务器。 当客户端访问服务器不同的url时, 用不同的location提供服务。 在k8s之外,nginx的配置一般如下: http {server {listen 80;server_name localhost;location / {root html; …

鸿蒙开发入门day19-使用NDK接口构建UI(一)

(创作不易,感谢有你,你的支持,就是我前行的最大动力,如果看完对你有帮助,还请三连支持一波哇ヾ(@^∇^@)ノ) 目录 NDK接口概述 整体架构 开发流程 接入ArkTS页面 占位组件 NDK组…

unity3d入门教程六

unity3d入门教程六 15.1预制体15.2编辑预制体15.3在场景中编辑15.4动态创建实例15.5实例的销毁16.1(练习)子弹发射16.2定时器16.3键盘事件 15.1预制体 火神山10天建成,使用了预制体技术 一个个小房间都是事先建造好的,最后吊车装…

ICPC网络赛 以及ACM训练总结

一、训练反思 关于我自己暑假期间训练的反思,我承认无论是因为什么原因,我自己浪费我整整一个暑假的时间,暑假期间正是我们集训的关键时期,这期间没有任何的事情来打扰我们学习,而我却熬夜,白天训练懈怠&a…

在服务器上开Juypter Lab教程(远程访问)

在服务器上开Juypter Lab教程(远程访问) 文章目录 在服务器上开Juypter Lab教程(远程访问)一、安装anaconda1、安装anaconda2、提权限3、运行4、同意协议5、安装6、是否要自动初始化 conda7、结束8、检查 二、Anaconda安装Pytorch…

python 自动化测试接口

比如我们要测试接口:identity/chatRecords/pages 已在Postman中有,那我们就可以直接从里面复制出Python脚本 新建: pagerequest.py import requests import jsonurl "http://192.168.31.132:70/identity/chatRecords/pages"payl…

基于AgentUniverse在金融场景中的多智能体应用探索

基于AgentUniverse在金融场景中的多智能体应用探索 1.基于大模型智能体超级状态机 智能体、多智能体都是当下的技术热点,但作为一个技术人应该理解,所有的技术都有自己所针对的问题、及其能力边界,并不存在普适的、放诸业务场景皆 work 的技术方案。在这里尝试区分,从大模…

[数据集][目标检测]高铁受电弓检测数据集VOC+YOLO格式1245张2类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):1245 标注数量(xml文件个数):1245 标注数量(txt文件个数):1245 标注…

2024年华为9月4日秋招笔试真题题解

2024年华为0904秋招笔试真题 二叉树消消乐好友推荐系统维修工力扣上类似的题--K站中转内最便宜的航班 二叉树消消乐 题目描述 给定原始二叉树和参照二叉树(输入的二叉树均为满二叉树,二叉树节点的值范围为[1,1000],二叉树的深度不超过1000)&#xff0c…

线性表之单链表

在上一节我们学习了线性表中的顺序表,今天我们来学习一下线性表中的另一种结构——单链表 前言 我们在之前已经初步了解了数据结构中的两种逻辑结构,但线性结构中并非只有顺序表一种,它还有不少兄弟姐妹,今天我们再来学习一下单链…

Python基础语法(3)下

列表和元组 列表是什么,元组是什么 编程中,经常需要使用变量,来保存/表示数据。变量就是内存空间,用来表示或者存储数据。 如果代码中需要表示的数据个数比较少,我们直接创建多个变量即可。 num1 10 num2 20 num3…