视频讲解:
PPO 强化学习机械臂 IK 训练过程可视化利器 Tensorboard
PPO 强化学习过程中,设置了verbose会显示数据,但还是不够直观,这里上一个可视化利器,Tensorboard,实际上stable baselines3中已经有了这部分的集成,但这个工具实际上在其他的框架上也可以使用,基于web的显示,简便好看。
https://stable-baselines3.readthedocs.io/en/master/guide/tensorboard.html
介绍下环境,ubuntu22.04 wsl,python3.10,无conda环境,安装tensorboard
pip3 install tensorboard -i https://pypi.tuna.tsinghua.edu.cn/simple
使用非常简单,只需要在PPO增加 `tensorboard_log="./tensorboard/"` 即可
model = PPO("MlpPolicy",env,policy_kwargs=policy_kwargs,verbose=1,n_steps=2048,batch_size=64,n_epochs=10,gamma=0.99,learning_rate=3e-4,device="cuda" if torch.cuda.is_available() else "cpu",tensorboard_log="./tensorboard/")
运行后,会在当前目录生成tensorboard文件夹
使用tensorboard指令读取该log,会起一个web可以看
tensorboard --logdir ./tensorboard/
打开浏览器,可以看到训练过程的图表
设置reload的时间,最快30s一次