【笔记】stable_baseline 记录输出说明

训练 PPO 代理时的记录器输出示例：

-----------------------------------------
| eval/                   |             |
|    mean_ep_length       | 200         |
|    mean_reward          | -157        |
| rollout/                |             |
|    ep_len_mean          | 200         |
|    ep_rew_mean          | -227        |
| time/                   |             |
|    fps                  | 972         |
|    iterations           | 19          |
|    time_elapsed         | 80          |
|    total_timesteps      | 77824       |
| train/                  |             |
|    approx_kl            | 0.037781604 |
|    clip_fraction        | 0.243       |
|    clip_range           | 0.2         |
|    entropy_loss         | -1.06       |
|    explained_variance   | 0.999       |
|    learning_rate        | 0.001       |
|    loss                 | 0.245       |
|    n_updates            | 180         |
|    policy_gradient_loss | -0.00398    |
|    std                  | 0.205       |
|    value_loss           | 0.226       |
-----------------------------------------

评估/eval

所有值均由 .eval/EvalCallback

mean_ep_length：平均剧集长度

mean_reward：平均每集奖励（评估期间）

success_rate：评估期间的平均成功率（1.0 表示 100% 成功），环境信息字典必须包含用于计算该值的键is_success

推出/rollout

ep_len_mean：平均剧集长度（剧集的平均值，默认为 100）stats_window_size

ep_rew_mean：平均剧集训练奖励（剧集的平均值，默认为 100），需要包装器来计算该值（由 make_vec_env 自动添加）。stats_window_sizeMonitor

exploration_rate：使用 DQN 时探索率的当前值，它对应于随机采取的行动的分数（“epsilon-greedy”探索的 epsilon）

success_rate：训练期间的平均成功率（剧集的平均值，默认为 100），您必须向包装器传递一个额外的参数以记录该值（）并在剧集的最后一步提供stats_window_sizeMonitorinfo_keywords=(“is_success”,)info[“is_success”]=True/False

时间/time

episodes：总集数

fps：每秒帧数（包括梯度更新所花费的时间）

iterations：迭代次数（数据收集 + A2C/PPO 策略更新）

time_elapsed：自训练开始以来的时间（以秒为单位）

total_timesteps：总时间步长数（环境中的步数）

训练/train

actor_loss：偏离策略算法的执行组件损失的当前值

approx_kl：新旧策略之间的近似平均KL差异（对于PPO），它是对更新中发生多少变化的估计

clip_fraction：PPO 被剪裁（高于阈值）的替代损失的平均分数。clip_range

clip_range：PPO替代损失的剪裁因子的当前值

critic_loss：偏离策略算法的批评函数损失的当前值，通常是值函数输出与 TD（0）之间的误差，时间差估计

ent_coef：熵系数的当前值（使用SAC时）

ent_coef_loss：熵系数损失的当前值（使用SAC时）

entropy_loss：熵损失的平均值（平均策略熵的负值）

explained_variance：由值函数解释的回报方差的分数，参见 https://scikit-learn.org/stable/modules/model_evaluation.html#explained-variance-score（ev=0 =>还不如预测零，ev=1 =>完美预测，ev<0 =>比预测零更差）

learning_rate：当前学习率值

loss：当前总损失值

n_updates：到目前为止应用的梯度更新数

policy_gradient_loss：策略梯度损失的当前值（其值没有多大意义）

value_loss：策略算法的值函数损失的当前值，通常为值函数输出与蒙特卡洛估计（或 TD（lambda）估计）之间的误差

std：使用广义状态相关探索（generalized State-Dependent Exploration，gSDE）时噪声的当前标准偏差

参考资料：https://stable-baselines3.readthedocs.io/en/master/common/logger.html

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/640871.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！