1、监控GPU使用情况
pip install nvitop
nvitop -m full
https://zhuanlan.zhihu.com/p/577533593
2、本地拉取服务器上tensorboard数据并进行可视化显示
https://blog.csdn.net/Thebest_jack/article/details/125609849
3、服务器打不开pycharm软件
这个是已经有一个软件在运行了,可能的原因是:
远程连接服务器后不是手动退出ide环境,而是远程连接被中断
- 查看进程 ps u
- 关闭进程 kill -9 PID
- 重启软件 ./pycharm.sh(或sh pycharm.sh)
4、通过sftp在两台服务器上互传数据
连接登录:
sftp -o port=xxxx username@remote_ip
这里port感觉可以随便填,我一般都填22
username指的是你要远程连接对方服务器的用户名,remote_ip是要远程连接对方服务器的IP地址
上传文件
sftp> lcd /www/wwwroot
sftp> put study.log /www/server
lcd是进入你自己的文件夹,我理解是local cd 命令,如果要操作对方服务器直接用常用的linux命令即可,如果需要对本机服务器操作,一般是l+指令
上传文件夹
sftp> put -r test /www/server
下载
#下载文件
sftp> get /www/server/study.log /www
#下载文件夹
sftp> get -r /www/server/test /www
退出传输模式
sftp> exit
参考:https://www.cnblogs.com/lsr-mark/p/15672002.html
5、添加参数–deterministic后出错
RuntimeError: Deterministic behavior was enabled with either
torch.use_deterministic_algorithms(True)
or
at::Context::setDeterministicAlgorithms(true)
, but this operation is
not deterministic because it uses CuBLAS and you have CUDA >= 10.2. To
enable deterministic behavior in this case, you must set an
environment variable before running your PyTorch application:
CUBLAS_WORKSPACE_CONFIG=:4096:8 or CUBLAS_WORKSPACE_CONFIG=:16:8. For
more information, go to
https://docs.nvidia.com/cuda/cublas/index.html#cublasApi_reproducibility
解决办法,在
torch.use_deterministic_algorithms(True)前
加上这一句
os.environ['CUBLAS_WORKSPACE_CONFIG']=':16:8'
或
os.environ['CUBLAS_WORKSPACE_CONFIG']=':4096:8'
即可