最后错误代码为134(6 signal)(大概是这样,错误解决了记录一下,错误忘了截图)
环境是cuda8.0,cudnn7.05,(在Titan上,cuda8.0、tensorflow1.4正好对应cudnn6.0,但这次GPU为GTX1070 貌似和Titan有区别),出现这个问题我开始以为内部不足,然后可能是cuda和cudnn的版本问题,网上也有说是环境变量的问题。都没能解决问题。
最后我怎么解决的,看到这个链接:
https://blog.csdn.net/longma666666/article/details/80266098
只剩下tensorflow没有试过换,虽然在Titan上验证cuda8.0---tensorflow1.4----cudnn6.0这个搭配没有问题,把tensorflow-GPU1.4换成1.8就可以完美运行程序了。
更奇怪的是我再把tensorflow换回1.4版本,也不再报错。(这我没想通)
总结:tensorflow版本问题。
附:
查看cuda版本:
nvcc -V
cat /usr/local/cuda/version.txt
cudnn6.0(更新为7.05),查看cudnn版本:
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2