Linux 如何用上次的checkpoint文件dist_train.sh 接着训练【mmdetection】

在Linux环境下，如果你想要用上一次的checkpoint文件继续训练，你可以在你的dist_train.sh脚本中设置--resume_from参数。这个参数指定了checkpoint文件的路径，训练会从该文件的状态继续进行。

例如，如果你的checkpoint文件名为last_checkpoint.pth，并且位于当前目录下，你可以修改你的dist_train.sh脚本，在运行命令中添加--resume_from ./last_checkpoint.pth。

假设你的原始训练命令是这样的：

python -m torch.distributed.launch \
--nproc_per_node=$NGPUS \
--master_port=$PORT \
your_train_script.py \
[other arguments]

或者如果是linux控制台的话，加个resum-from /path/to/latest.pth就可以了

原来的命令

sh tools/dist_train.sh configs/maskclip_plus/zero_shot/maskclip_plus_r50_deeplabv2_r101-d8_512x512_80k_coco-stuff164k.py  2

后来的命令，checkpoint一般保存至workdir中，找到对应的文件就好

 sh tools/dist_train.sh configs/maskclip_plus/zero_shot/maskclip_plus_r50_deeplabv2_r101-d8_512x512_80k_coco-stuff164k.py  2 --resume-from /opt/10T/home/asc005/YangMingxiang/MaskCLIP/work_dirs/maskclip_plus_r50_deeplabv2_r101-d8_512x512_80k_coco-stuff164k/latest.pth

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/17268.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！