多GPU使用详解

目录:

介绍

记录设备状态

手动分配状态

允许GPU内存增长

在多GPU系统是使用单个GPU

使用多个 GPU

一、介绍

在一个典型的系统中,有多个计算设备。在 TensorFlow 中支持的设备类型包括 CPU 和 GPU。他们用字符串来表达,例如:

 

  • “/cpu:0”: 机器的 CPU
  • “/device:GPU:0”: 机器的 GPU 如果你只有一个
  • “/device:GPU:1”: 机器的第二个 GPU

 

如果 TensorFlow 操作同时有 CPU 和 GPU 的实现,操作将会优先分配给 GPU 设备。例如,matmul 同时有 CPU 和 GPU 核心,在一个系统中同时有设备 cpu:0 和 gpu:0,gpu:0 将会被选择来执行 matmul。

 

二、记录设备状态

 

为了确定你的操作和张量分配给了哪一个设备,创建一个把 log_device_placement 的配置选项设置为 True 的会话即可。

 

 

创建一个计算图

a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name=’a’)

b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2], name=’b’)

c = tf.matmul(a, b)

创建一个 session,它的 log_device_placement 被设置为 True.

sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))

运行这个操作

print(sess.run(c))

你将会看到一下输出:

 

Device mapping:

/job:localhost/replica:0/task:0/device:GPU:0 -> device: 0, name: Tesla K40c, pci bus

id: 0000:05:00.0

b: /job:localhost/replica:0/task:0/device:GPU:0

a: /job:localhost/replica:0/task:0/device:GPU:0

MatMul: /job:localhost/replica:0/task:0/device:GPU:0

[[ 22. 28.]

[ 49. 64.]]

 

三、手动分配设备

 

如果你希望一个特定的操作运行在一个你选择的设备上,而不是自动选择的设备,你可以使用 tf.device 来创建一个设备环境,这样所有在这个环境的操作会有相同的设备分配选项。

 

创建一个会话

with tf.device(‘/cpu:0’):

a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name=’a’)

b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2], name=’b’)

c = tf.matmul(a, b)

创建一个 session,它的 log_device_placement 被设置为 True

sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))

运行这个操作

print(sess.run(c))

 

你将会看到 a 和 b 被分配给了 cpu:0。因为没有指定特定的设备来执行 matmul 操作,TensorFlow 将会根据操作和已有的设备来选择(在这个例子中是 gpu:0),并且如果有需要会自动在设备之间复制张量。

 

Device mapping:

/job:localhost/replica:0/task:0/device:GPU:0 -> device: 0, name: Tesla K40c, pci bus

id: 0000:05:00.0

b: /job:localhost/replica:0/task:0/cpu:0

a: /job:localhost/replica:0/task:0/cpu:0

MatMul: /job:localhost/replica:0/task:0/device:GPU:0

[[ 22. 28.]

[ 49. 64.]]

 

四、允许 GPU 内存增长

 

默认情况下,TensorFlow 将几乎所有的 GPU的显存(受 CUDA_VISIBLE_DEVICES 影响)映射到进程。 通过减少内存碎片,可以更有效地使用设备上宝贵的GPU内存资源。

 

在某些情况下,只需要分配可用内存的一个子集给进程,或者仅根据进程需要增加内存使用量。 TensorFlow 在 Session 上提供了两个 Config 选项来控制这个选项。

 

第一个是 allow_growth 选项,它根据运行时的需要分配 GPU 内存:它开始分配很少的内存,并且随着 Sessions 运行并需要更多的 GPU 内存,我们根据 TensorFlow 进程需要继续扩展了GPU所需的内存区域。请注意,我们不释放内存,因为这会导致内存碎片变得更糟。要打开此选项,请通过以下方式在 ConfigProto 中设置选项:

 

 

config = tf.ConfigProto()

config.gpu_options.allow_growth = True

session = tf.Session(config=config, …)

 

 

第二种方法是 per_process_gpu_memory_fraction 选项,它决定了每个可见GPU应该分配的总内存量的一部分。例如,可以通过以下方式告诉 TensorFlow 仅分配每个GPU的总内存的40%:

 

config = tf.ConfigProto()

config.gpu_options.per_process_gpu_memory_fraction = 0.4

session = tf.Session(config=config, …)

 

 

如果要真正限制 TensorFlow 进程可用的GPU内存量,这非常有用。

 

五、在多GPU系统上使用单个GPU

 

如果您的系统中有多个GPU,则默认情况下将选择具有最低ID的GPU。 如果您想在不同的GPU上运行,则需要明确指定首选项:

 

创建一个计算图

with tf.device(‘/device:GPU:2’):

a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name=’a’)

b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2], name=’b’)

c = tf.matmul(a, b)

创建一个 log_device_placement 设置为True 的会话

sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))

运行这个操作

print(sess.run(c))

 

 

你会看到现在 a 和 b 被分配给 cpu:0。 由于未明确指定设备用于 MatMul 操作,因此 TensorFlow 运行时将根据操作和可用设备(本例中为 gpu:0)选择一个设备,并根据需要自动复制设备之间的张量。

 

如果指定的设备不存在,将得到 InvalidArgumentError:

InvalidArgumentError: Invalid argument: Cannot assign a device to node ‘b’:

Could not satisfy explicit device specification ‘/device:GPU:2’

[[Node: b = Const[dtype=DT_FLOAT, value=Tensor<type: float shape: [3,2]

values: 1 2 3…>, _device=”/device:GPU:2”]()]]

 

如果希望 TensorFlow 在指定的设备不存在的情况下自动选择现有的受支持设备来运行操作,则可以在创建会话时在配置选项中将 allow_soft_placement 设置为 True。

 

创建计算图

with tf.device(‘/device:GPU:2’):

a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name=’a’)

b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2], name=’b’)

c = tf.matmul(a, b)

创建一个 allow_soft_placement 和 log_device_placement 设置为 True 的会话

 

sess = tf.Session(config=tf.ConfigProto(

allow_soft_placement=True, log_device_placement=True))

运行这个操作

print(sess.run(c))

 

六、使用多个 GPU

 

如果您想要在多个 GPU 上运行 TensorFlow ,则可以采用多塔式方式构建模型,其中每个塔都分配有不同的 GPU。 例如:

 

 

创建计算图

c = []

for d in [‘/device:GPU:2’, ‘/device:GPU:3’]:

with tf.device(d):

a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3])

b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2])

c.append(tf.matmul(a, b))

with tf.device(‘/cpu:0’):

sum = tf.add_n(c)

创建一个 log_device_placement 设置为 True 的会话

sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))

运行这个操作

print(sess.run(sum))

 

你将会看到以下的输出:

 

Device mapping:

/job:localhost/replica:0/task:0/device:GPU:0 -> device: 0, name: Tesla K20m, pci bus

id: 0000:02:00.0

/job:localhost/replica:0/task:0/device:GPU:1 -> device: 1, name: Tesla K20m, pci bus

id: 0000:03:00.0

/job:localhost/replica:0/task:0/device:GPU:2 -> device: 2, name: Tesla K20m, pci bus

id: 0000:83:00.0

/job:localhost/replica:0/task:0/device:GPU:3 -> device: 3, name: Tesla K20m, pci bus

id: 0000:84:00.0

Const_3: /job:localhost/replica:0/task:0/device:GPU:3

Const_2: /job:localhost/replica:0/task:0/device:GPU:3

MatMul_1: /job:localhost/replica:0/task:0/device:GPU:3

Const_1: /job:localhost/replica:0/task:0/device:GPU:2

Const: /job:localhost/replica:0/task:0/device:GPU:2

MatMul: /job:localhost/replica:0/task:0/device:GPU:2

AddN: /job:localhost/replica:0/task:0/cpu:0

[[ 44. 56.]

[ 98. 128.]]

 

 

翻译自:

https://www.tensorflow.org/programmers_guide/using_gpu

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/451437.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

图片上传的两种方式

总的说图片上传有两种方式&#xff0c;一种是把图片文件写到数据库中&#xff0c;另一种是存到服务器文件目录中。写到数据库中的图片文件需要转换成二进制流的格式&#xff0c;占用数据库空间比较多&#xff0c;适合少量图片的存储&#xff0c;比如说&#xff0c;系统中某些小…

最好理解的: spring ioc原理讲解,强烈推荐!

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 IOC&#xff08;DI&#xff09;&#xff1a;java程序中的每个业务逻辑至少需要两个或以上的对象来协作完成。通常&#xff0c;每个对象在…

微信小程序 - 回到自己位置(map)

演示效果&#xff1a; 图片资源 index.js 1 /** 2 * 回到自己位置&#xff0c;在cover-image上绑定点击事件即可. 3 */ 4 clickcontrol(e) { 5 let mpCtx wx.createMapContext("map"); 6 mpCtx.moveToLocation(); 7 }, 转载于:https://www.cnbl…

uwsgi搭配nginx

uwsgi搭配nginx可以做域名解析和负载均衡uWSGI&#xff0c;既不用wsgi协议也不用fcgi协议&#xff0c;而是自创了一个uwsgi的协议&#xff0c;据说该协议大约是fcgi协议的10倍那么快。uWSGI的主要特点如下&#xff1a;◆超快的性能。◆低内存占用&#xff08;实测为apache2的mo…

如何让tomcat服务器运行在80端口,并且无需输入项目名即可访问项目()

这个问题最开始遇到的时候是半年前,自己买了个服务器玩,但是域名解析的时候出了问题,我查了查资料才知道腾讯云是默认解析到80端口,而且还改不了. 首先是修改tomcat运行端口号,默认是8080,但是我们可以通过修改配置文件更改, 打开conf/server.xml文件找到这个地方,: 将8080改为…

tailf、tail -f、tail -F三者区别

tail -f 等同于--followdescriptor&#xff0c;根据文件描述符进行追踪&#xff0c;当文件改名或被删除&#xff0c;追踪停止 tail -F 等同于--followname --retry&#xff0c;根据文件名进行追踪&#xff0c;并保持重试&#xff0c;即该文件被删除或改名后&#xff…

使用图形芯片加速电子自动化设计应用程序

以往EDA应用性能瓶颈主要受两方面因素制约&#xff0c;首先大多数应用都是单线程的&#xff0c;而CPU和GPU架构拥有几十到数千的并行内核&#xff0c;其次是应用程序内存延迟问题。目前EDA应用已经部署到传统的常规处理器上。最重要的是这些应用促使人们设计出并行或向量处理器…

自我介绍的四个套路

四套路内容&#xff1a; 1、我是谁&#xff0c;叫什么名字&#xff0c;我从哪里来。 2、我因为什么机缘出现这个场合。 3、我能给大家带来什么价值。 4、我希望能够得到大家的什么帮助。 示例&#xff1a; 大家好&#xff0c;我叫XXX&#xff0c; 听说今天会有几个高人在场&…

加载样式js

var MaskUtil (function(){ var $mask,$maskMsg; var defMsg 数据导出中&#xff0c;请稍待。。。; function init(){ if(!$mask){ $mask $("<div class\"datagrid-mask mymask\"></div>").appendTo("body"); } if(!$mask…

flush privileges

flush privileges 命令本质上的作用是将当前user和privilige表中的用户信息/权限设置从mysql库(MySQL数据库的内置库)中提取到内存里。MySQL用户数据和权限有修改后&#xff0c;希望在"不重启MySQL服务"的情况下直接生效&#xff0c;那么就需要执行这个命令。通常是在…

【Linux】Linux中常用操作命令

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 常用指令 ls   显示文件或目录 -l 列出文件详细信息l(list) -a 列出当前目录下所有文件及目录&#xff0…

Mybatis的缓存机制Cache

Mybatis提供对缓存的支持&#xff0c;分为一级缓存和二级缓存&#xff0c;在没有配置的情况下&#xff0c;系统默认会使用一级缓存。 一级缓存&#xff08;SqlSession级别&#xff09; 我们都知道每个SqlSession对象之间的缓存是互不影响的&#xff0c;当同一个SqlSession执行多…

大数据应用时代来袭 SaaS走向没落?

随着大量的信息涌入互联网——90%的互联网是过去两年建立起来的——互联网公司正在想方设法去熟悉并利用大数据来推动他们的业务。正如SaaS和云技术一样完全变革了企业的运作方式一样&#xff0c;大数据应用&#xff08;BDA&#xff09;也同样可以。 BDA是基于网络的应用&#…

为什么使用数据库从库

主库用来进行写操作&#xff0c;从库用来进行读操作&#xff0c;这样一来的可以大大提高读取的效率。在一般的互联网应用中&#xff0c;经过一些数据调查得出结论&#xff0c;读/写的比例大概在 10&#xff1a;1左右 &#xff0c;也就是说大量的数据操作是集中在读的操作。但是…

Java程序员必知的10个调试技巧

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 在本文中&#xff0c;作者将使用大家常用的的开发工具Eclipse来调试Java应用程序。但这里介绍的调试方法基本都是通用的&#xff0c;也适…

【GPS】GPS的C_GNSS_RF_ELNA_GPIO_NUM_DEFAULT配置,Linux系统中GPIO的设置

GPS的GPIO配置文件 客户需要更改此变量C_GNSS_RF_ELNA_GPIO_NUM_DEFAULT才能覆盖NAVRF驱动程序ELNA设置。   modem_proc/gps/gnss/mgp/me/gen8/src/cgps_ext.c /* Customer needs to change this variable in order to override NAVRF driver ELNA setting */ gnss_ExternalG…

学习的境界

学习是有境界的&#xff0c;下面以C语言中的结构型为例简单分析。 第一种境界&#xff1a;理解了。 结构型是自定义数据类型&#xff0c;与C语言中基本的数据类型如int的作用相同&#xff0c;用于定义变量。&#xff08;变量是内存中存储单元的标识&#xff0c;C语言中通过变…

性能测试的重要意义(一)

♦我是一下下面几个方面来理解的&#xff1a; 1.秒的性能对于顾客的意义&#xff1f; 2.性能测试的重要意义 3.什么是软件的性能&#xff1f; 4.软件的性能测试是什么&#xff1f; 5.功能测试和性能测试对比&#xff1f; 6.项目组不同角色眼中的软件性能&#xff1f; 7.性能测试…

ContextLoaderListener介绍

在给新同事培训Spring MVC时&#xff0c;有人问&#xff1a;可以不配置ContextLoaderListener吗 所谓ContextLoaderListener&#xff0c;就是在web部署描述符即web.xml里面经常配置的一个监听器&#xff0c;如下 [html] view plaincopy <listener> <listener-cl…

PLSQL安装教程,无需oracle客户端(解决本地需要安装oracle客户端的烦恼)

最近用笔记本开发&#xff0c;项目用的是Oracle数据库&#xff0c;不想本地安装Oracle客户端。 就只装了一个PLSQL 连接数据库的时候各种错误&#xff0c;现在解决了记录一下。 详细内容见 附件 1、运行 plsqldev1105_x64.exe2、运行 Language_zh_x86_x64.exe3、启动 plsql 点…