Ray RLlib User Guides:模型,处理器和动作分布

Ray RLlib用户手册地址

默认模型配置设置

在下面的段落中,我们将首先描述RLlib自动构建模型的默认行为(如果您没有设置自定义模型),然后深入了解如何通过更改这些设置或编写自己的模型类来自定义模型。

默认情况下,RLlib将为您的模型使用以下配置设置。其中包括FullyConnectedNetworks(fcnet_hiddens和fcnet_activation)、VisionNetworks(conv_filters和conv_activation)、自动RNN包装、自动注意力(GTrXL)包装以及Atari环境的一些特殊选项:

MODEL_DEFAULTS: ModelConfigDict = {# 实验性标志# 如果为True,则用户指定不要创建的预处理器# (通过 config._disable_preprocessor_api=True)。如果为 True,则观察结果将在环境返回时直接到达模型中"_disable_preprocessor_api": False,# 实验性标志# If True, RLlib will no longer flatten the policy-computed actions into# a single tensor (for storage in SampleCollectors/output files/etc..),# but leave (possibly nested) actions as-is. Disabling flattening affects:# - SampleCollectors:必须存储可能嵌套的操作结构。# - 将之前的action作为其输入的一部分的模型。# - 从脱机文件读取的算法(包括操作信息)。"_disable_action_flattening": False,# === 内置选项 ===# 全连接网络 (tf and torch): rllib.models.tf|torch.fcnet.py# 如果未指定自定义模型并且输入空间为1D,则使用这个模型.# Number of hidden layers to be used."fcnet_hiddens": [256, 256],# 激活函数描述符# Supported values are: "tanh", "relu", "swish" (or "silu", which is the same),# "linear" (or None)."fcnet_activation": "tanh",# 视觉网络 (tf and torch): rllib.models.tf|torch.visionnet.py# 如果未指定自定义模型并且输入空间为2D,则使用这些# 过滤器配置:每个过滤器的[out_channels,内核,步幅]列表# Example:# Use None for making RLlib try to find a default filter setup given the# observation space."conv_filters": None,# Activation function descriptor.# Supported values are: "tanh", "relu", "swish" (or "silu", which is the same),# "linear" (or None)."conv_activation": "relu",# 一些默认模型支持具有给定激活的 n 个密集层的最终 FC 堆栈:# - Complex observation spaces: Image components are fed through#   VisionNets, flat Boxes are left as-is, Discrete are one-hot'd, then#   everything is concated and pushed through this final FC stack.# - VisionNets (CNNs), e.g. after the CNN stack, there may be#   additional Dense layers.# - FullyConnectedNetworks will have this additional FCStack as well# (that's why it's empty by default)."post_fcnet_hiddens": [],"post_fcnet_activation": "relu",# 对于 DiagGaussian 动作分布,使模型的后半部分输出浮动偏差变量而不是状态相关变量。# 这仅在使用默认的全连接网络时有效。"free_log_std": False,# Whether to skip the final linear layer used to resize the hidden layer# outputs to size `num_outputs`. If True, then the last hidden layer# should already match num_outputs."no_final_linear": False,# Whether layers should be shared for the value function."vf_share_layers": True,# == LSTM ==# 是否用LSTM包装模型。"use_lstm": False,# Max seq len for training the LSTM, defaults to 20."max_seq_len": 20,# Size of the LSTM cell."lstm_cell_size": 256,# Whether to feed a_{t-1} to LSTM (one-hot encoded if discrete)."lstm_use_prev_action": False,# Whether to feed r_{t-1} to LSTM."lstm_use_prev_reward": False,# Whether the LSTM is time-major (TxBx..) or batch-major (BxTx..)."_time_major": False,# == 注意力网络(transformer) (experimental: torch-version is untested) ==# 是否使用 GTrXL ("Gru transformer XL"; attention net) as the# wrapper Model around the default Model."use_attention": False,# The number of transformer units within GTrXL.# A transformer unit in GTrXL consists of a) MultiHeadAttention module and# b) a position-wise MLP."attention_num_transformer_units": 1,# The input and output size of each transformer unit."attention_dim": 64,# The number of attention heads within the MultiHeadAttention units."attention_num_heads": 1,# The dim of a single head (within the MultiHeadAttention units)."attention_head_dim": 32,# The memory sizes for inference and training."attention_memory_inference": 50,"attention_memory_training": 50,# The output dim of the position-wise MLP."attention_position_wise_mlp_dim": 32,# The initial bias values for the 2 GRU gates within a transformer unit."attention_init_gru_gate_bias": 2.0,# Whether to feed a_{t-n:t-1} to GTrXL (one-hot encoded if discrete)."attention_use_n_prev_actions": 0,# Whether to feed r_{t-n:t-1} to GTrXL."attention_use_n_prev_rewards": 0,# == Atari ==# Set to True to enable 4x stacking behavior."framestack": True,# Final resized frame dimension"dim": 84,# (deprecated) Converts ATARI frame to 1 Channel Grayscale image"grayscale": False,# (deprecated) Changes frame to range from [-1, 1] if true"zero_mean": True,# === 自定义模型的选项 ===# Name of a custom model to use"custom_model": None,# Extra options to pass to the custom classes. These will be available to# the Model's constructor in the model_config field. Also, they will be# attempted to be passed as **kwargs to ModelV2 models. For an example,# see rllib/models/[tf|torch]/attention_net.py."custom_model_config": {},# Name of a custom action distribution to use."custom_action_dist": None,# Custom preprocessors are deprecated. Please use a wrapper class around# your environment instead to preprocess observations."custom_preprocessor": None,# === RLModules中ModelConfigs的选项 ===# 要编码的潜在维度。# Since most RLModules have an encoder and heads, this establishes an agreement# on the dimensionality of the latent space they share.# This has no effect for models outside RLModule.# If None, model_config['fcnet_hiddens'][-1] value will be used to guarantee# backward compatibility to old configs. This yields different models than past# versions of RLlib."encoder_latent_dim": None,# Whether to always check the inputs and outputs of RLlib's default models for# their specifications. Input specifications are checked on failed forward passes# of the models regardless of this flag. If this flag is set to `True`, inputs and# outputs are checked on every call. This leads to a slow-down and should only be# used for debugging. Note that this flag is only relevant for instances of# RLlib's Model class. These are commonly generated from ModelConfigs in RLModules."always_check_shapes": False,# Deprecated keys:# Use `lstm_use_prev_action` or `lstm_use_prev_reward` instead."lstm_use_prev_action_reward": DEPRECATED_VALUE,# Deprecated in anticipation of RLModules API"_use_default_native_models": DEPRECATED_VALUE,}

内置模型

在对原始环境输出进行预处理(如果适用)后,处理后的观察结果将通过策略的模型提供。如果没有指定自定义模型(请参阅下面关于如何自定义模型的进一步信息),RLlib将根据简单的启发式方法选择一个默认模型:

  1. 用于形状长度大于 2 的观察的视觉网络(TF 或 Torch),例如 (84 x 84 x 3)。
  2. 用于其他一切的完全连接的网络(TF 或 Torch)。

这些默认模型类型可以通过算法配置中的模型配置键进一步配置(如上所述)。上面列出了可用的设置,模型目录文件中也记录了这些设置。

请注意,对于视觉网络情况,如果您的环境观察具有自定义大小,则可能必须配置conv_Filters。例如,对于42x42观测值,\“MODEL\”:{\“DIM\”:42,\“CONV_FILTIRS\”:[[16,[4,4],2],[32,[4,4],2],[512,[11,11],1]]}。因此,请始终确保最后一个Conv2D输出的输出形状为B,1,1,X,其中B=批处理,X=最后一个Conv2D层的滤镜数量,以便RLlib可以将其展平。如果不是这样,将抛出信息性错误。

内置自动LSTM和自动注意包装

此外,如果在模型配置中设置了 “use_lstm”: True 或 “use_attention”: True ,则模型的输出将分别由LSTM单元(TF或Torch)或注意(GTrXL)网络(TF或Torch)进一步处理。更广泛地说,RLlib支持对其所有策略梯度算法(A3C、PPO、PG、Impala)使用重复/注意模型,并且在其策略评估实用程序中内置了必要的序列处理支持。

关于使用哪些附加配置键来更详细地配置这两个自动包装器的详细信息,请参见上面的内容(例如,您可以通过lstm_cell_size指定LSTM层的大小,或者通过attence_dim指定注意暗度)。

对于完全定制的 RNN / LSTM / Attention-Net 设置,请参阅下面的循环模型和注意网络/Transformers 部分。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/226640.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

D33|动态规划!启程!

1.动态规划五部曲: 1)确定dp数组(dp table)以及下标的含义 2)确定递推公式 3)dp数组如何初始化 4)确定遍历顺序 5)举例推导dp数组 2.动态规划应该如何debug 找问题的最好方式就是把…

软件测试面试八股文(答案解析+视频教程)

1、B/S架构和C/S架构区别 B/S 只需要有操作系统和浏览器就行,可以实现跨平台,客户端零维护,维护成本低,但是个性化能力低,响应速度较慢。 C/S响应速度快,安全性强,一般应用于局域网中&#xf…

Yoast SEO Premium v21.7 Premium WordPress 插件Yoast +子插件介绍

什么是Yoast SEO? Yoast SEO 是 WordPress 的 SEO 插件,可帮助网站所有者针对搜索引擎优化他们的网站。该插件由 Joost de Valk 于 2008 年创建,旨在让每个人都能访问 SEO。今天,Yoast SEO 是全球数百万 WordPress 用户使用的最受…

如何对比云渲染平台优劣?到底哪一家好一些?

云渲染作为共享经济的一种体现,在强大计算资源共享的趋势下对个人用户和渲染团队的作品制作提供了巨大的便利。云渲染服务让CG艺术家无需自己投资昂贵的硬件设备,而可以通过网络提交渲染任务到云平台并利用其强大的共享计算资源,不但有效节约…

利用腾讯微搭平台连接MYSQL

首先,找到控制台 然后再控制台搜索:微搭 然后点击进入: 这里如果是第一次进入,他应该会提示要创建环境。 然后按照这个步骤: 然后进入这个页面,点击编辑器: 然后在这里搜索表格: 点…

Docker常用管理命令

Docker常用管理命令 一、Docker常用管理命令 docker ps 功能&#xff1a;查看正在运行的容器列表。示例&#xff1a;docker ps -a&#xff08;查看所有容器&#xff0c;包括已停止的容器&#xff09;。 docker start <container_id> 功能&#xff1a;启动一个已停止的容…

加州数据集介绍

包含四个城市&#xff1a;Fresno, Modesto, Oxnard, Stockton 数据的原遥感图像tif&#xff08;及地理信息.xml&#xff09;和标注数据csv是分开不同链接的&#xff0c;图像分辨率为 遥感原图像数据 文件解压后包含两种类型.tif和.tif.xml&#xff0c;后者是地理信息系统&am…

ros命名空间

文章目录 一、定义介绍二、原理解读1. 命名空间 一、定义介绍 在ROS中&#xff0c;命名空间是一种用于组织和区分节点、话题、服务和参数等资源的层次结构。命名空间使用斜线(/)作为分隔符&#xff0c;类似于文件系统中的路径。 二、原理解读 1. 命名空间 每个ROS节点都有一…

springboot应用,cpu高、内存高问题排查

前几天&#xff0c;排查了2个生产问题。一个cpu高&#xff0c;一个内存高。今天把解决过程整理一下 文章目录 1、cpu高问题排查1.1、获取栈日志1.2、分析栈日志 2、内存高问题排查2.1、dump日志分析2.2、堆内存使用情况2.3、解决方案2.4、arthas trace解决问题2.5、总结 1、cp…

DIY电脑装机机箱风扇安装方法

作为第一次自己diy一台电脑主机的我&#xff0c;在经历了众多的坑中今天来说一下如何安装机箱风扇的问题 一、风扇的数量 1、i3 xx50显卡 就用一个cpu散热风扇即可 2、i5 xx60 一个cpu散热风扇 一个风扇即可 3、i7 xx70 一个cpu散热 4个风扇即可 4、i9 xx80 就需要7个以…

初识SpringSecurity

目录 前言 特点 快速开始 导入依赖 运行项目 访问服务 权限控制 实现UserDetails接口 添加SecurityConfig配置类 测试接口DemoController 设置权限控制authorizeHttpRequests 结果分析 总结 前言 Spring Security是一个强大且高度可定制的身份验证和访问控制框架…

XXE利用的工作原理,利用方法及防御的案例讲解

XXE&#xff08;XML外部实体注入&#xff09;利用是一种网络安全攻击手段&#xff0c;其中攻击者利用XML解析器处理外部实体的方式中的漏洞。这种攻击主要针对的是那些使用XML来处理数据的应用程序&#xff0c;尤其是当这些应用程序没有正确限制外部实体的处理时。通过XXE利用&…

【后端卷前端3】

侦听器 监听的数据是 data()中的动态数据~响应式数据 <template><div><p>{{showHello}}</p><button click"updateHello">修改数据</button></div> </template><script>export default {name: "goodsTe…

使用Python实现对word的批量操作

Python在平时写写小工具真是方便快捷&#xff0c;Pyhon大法好。以下所有代码都是找了好多网上的大佬分享的代码按照自己的需求改的。 调用的库为Python-docx、win32com、PyPDF2、xlwings&#xff08;操作excel&#xff09;。 因为公司的任务要对上千个word文件进行批量操作&a…

威联通硬盘休眠后修改系统定时任务

按照网上一些教程&#xff0c;成功将威联通的机械硬盘设置了自动休眠。但是发现每天有多个整点硬盘会自动唤醒&#xff0c;怀疑是系统内置的定时任务触发了硬盘唤醒。 通过查看系统日志中事件和访问记录&#xff0c;判断出一些引发硬盘唤醒的自动任务&#xff0c;将这些定时任…

常见注册中心对比

特性 / 注册中心ConsulEtcdZooKeeperNacos服务发现DNS、HTTPWatcherWatcherHTTP/UDP/SDK健康检查多种方式&#xff08;HTTP、TCP 等&#xff09;监听健康状态变化心跳机制和 Watcher支持自定义健康检查一致性Raft 算法Raft 算法ZAB 协议Raft 算法性能适用于大规模部署读密集型操…

mediapipe 的姿态检测遇到的问题

简介&#xff1a; 最近在用mediapipe 进行人体姿态检测&#xff0c;当我初始化pose&#xff08;姿态检测对象&#xff09;时出现了错误&#xff1a;报错如下&#xff1a; Downloading model to D:\Anaconda\envs\taiji\lib\site-packages\mediapipe/modules/pose_landmark/pos…

Hdfs java API

1.在主机上启动hadoop sbin/start-all.sh 这里有一个小窍门&#xff0c;可以在本机上打开8088端口查看三台机器的连接状态&#xff0c;以及可以打开50070端口&#xff0c;查看hdfs文件状况。以我的主虚拟机为例&#xff0c;ip地址为192.168.198.200&#xff0c;所以可以采用下…

hadoop集群基础环境搭建

1.安装基础环境&#xff08;以centos7为例&#xff09; 1.1修改IP 创建4台虚拟机IP设置为192.168.154.4&#xff0c;192.168.154.5&#xff0c;192.168.154.6&#xff0c;192.168.154.7启动每台节点&#xff0c;在对应的节点路径"/etc/sysconfig/network-scripts…

DS八大排序之冒泡排序和快速排序

前言 前两期我们已经对"插入排序"&#xff08;直接插入排序和希尔排序&#xff09; 和 "选择排序"&#xff08;直接选择排序和堆排序&#xff09;进行了详细的介绍~&#xff01;这一期我们再来详细介绍一组排序 &#xff1a;"交换排序"即耳熟能…