配环境总是一个老生常谈的问题,有些项目写得好的,会把一些冗余的包删除,只留下必要的包,并且手把手教你pip安装,但是有些项目就直接丢一个200~300行的environment.yaml文件或者requirement.txt文件让你自己去配,虽然也有相关的环境配置内容,但能够按照步骤一次通过配置的可能性很低,而且大部分问题会跟系统环境、pytorch版本、anaconda版本有关,最终结果就是有些包配了半天终于配好了,结果代码里面直接一个注释不用了,总之就是让人十分折磨。本文决定对一些常见配环境问题进行一个简单的总结,希望可以帮到大家。
在conda中,一般通过yaml文件来配置环境的命令为:
conda env create -f environment.yml -n 环境名
但能够一次性成功配置环境属于少数情况,一般都会遇到配置太慢、卡死、solving environment failed、PackageNotFound、以及pip爆出的一堆红字
问题1:包找不到,且大部分都带有包的唯一标识符(例如hf484d3e_0、h1ccaba5_0)
分类讨论一下,如果只有少量的包,或许可以通过删除yaml文件中的唯一标识符限制来完成环境配置,yaml文件改动如下所示:
但是如果有很多包(带唯一标识符的)都找不到,就很有可能是系统环境不对导致的
例如尝试在windows10环境下配置linux中特有的一些包
当然这样也会导致一些其他包出现问题:
这个时候就需要敏锐一点,发现最后一个包的包名为ld_impl_linux-64,就可以反应过来配置的系统不对了。果断更换系统。
问题2:等待时间太长
建议加入一些快速的源(在conda中称为channel),比如清华源或者阿里源,如果有校内或者工作的内网源更好,确认网络连接正常。
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
使用conda config --show channels
删除源使用conda config --remove channels 源名,
一般情况下,网络正常,配置时间不会太久
问题3:pytorch安装找不到匹配的版本号
ERROR: No matching distribution found for torch==1.12.1+cu102
这种情况其实是比较常见的,因为pytorch老版本中支持CUDA的版本是需要单独配置的
Previous PyTorch Versions | PyTorch
可以在官网上找到你需要的pytorch,然后在已经激活的conda环境中使用pip直接安装
例如这样:(很好的一点就是pytorch官网上可以找到所有的对应版本信息)
pip install torch==1.12.1+cu102 torchvision==0.13.1+cu102 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu102
建议不要使用conda install的命令,因为它基本上不会安装GPU版本的pytorch
下图为使用conda install的安装结果:(其实这个packageplan就可以看出它安装的不是torch包而是pytorch包,很奇怪)
关于pytorch cuda版本的选择问题,先试用一下nvidia-smi命令查看自己是否安装CUDA
只要这里显示的CUDA版本号大于安装的pytorch版本号就可以了
例如torch==1.12.1+cu102的CUDA版本为10.2,当前系统的CUDA版本为11.4,说明可以直接安装这个版本的pytorch
问题4:下载包到一半突然一大片红ERROR,一般包含time out字样
socket.timeout: The read operation timed out或者ReadTimeoutError: HTTPSConnectionPool(host='download.pytorch.org', port=443): Read timed out.
这个主要是网络波动导致的,也有可能是远端的服务器网络出现问题,也有可能是自己的源没配好,访问不稳定。总之是网络上的问题。
重新尝试命令即可,对于已经下载好的包,pip会读取自己的缓存cache,不会让你重复下载的。
问题5:安装某个包的时候,它自动把已经装好的pytorch删掉了,重新安装了另一个版本
这种情况一般为安装一些高级的深度学习库会遇到,例如DGL、allennlp等等
在yaml的pip列表中可以先扫一眼,看看有没有这种包,如果有就留到最后单独安装,在官网上查询对应的pytorch版本来判断应该这么安装。
如果不知道是不是这种有依赖关系的深度学习库时,可以先装pytorch,再装其他库,如果发现在下载新的pytorch版本就立刻终止,早发现早治疗。
如果最后单独安装的时候仍然pytorch版本不对,说明可能源代码根本就没用这个库,也可以在官网上选择一个高相邻版本的库进行安装,一般都可以正常运行。
如果不想使用conda install来配置整个环境,可以使用以下命令(在conda的目标环境下)
pip install -r requirements.txt
在包比较少的情况下也可以用pip install手动硬装
但记住安装完成之后需要执行一下pip check命令,看一下是不是所有的包的依赖关系都正确了
另外给出一个实用的pip和conda小技巧
pip cache purge
conda clean --all
可以清除pip管理器和conda管理器中的缓存,避免一些大型包下载的一半中断导致系统内存被占的问题,例如tensorflow和pytorch。