huggingface 笔记：device

huggingface 笔记：device_map

1 基本映射方法
设计设备映射时，可以让Accelerate库来处理设备映射的计算
通过设置device_map为支持的选项之一（"auto"、 "balanced"、 "balanced_low_0"、 "sequential"）；或者如果想更精确地控制每一层应该去哪里，也可以自己创建一个设备映射

"auto" 和 "balanced"

在所有可用的GPU上均匀分配模型

"balanced_low_0"

在除了第一个GPU之外的所有GPU上均匀分配模型，并且只有在其他GPU放不下时，才在GPU 0上放置内容

当你需要在生成 Transformers 模型的输出时使用GPU 0进行一些处理时，这个选项非常有用

"sequential"

尽可能在GPU 0上放置内容，然后移动到GPU 1，依此类推（如果不需要，就不会使用最后的GPU）

2 `max_memory`

在infer_auto_device_map中，通过使用max_memory参数来限制每个GPU上使用的内存
设置max_memory时，你应该传递一个包含GPU标识符（例如0、1等）和“cpu”键的字典
- 值可以是一个整数（以字节为单位）或一个带单位的数字字符串，如"10GiB"或"10GB"

from accelerate import infer_auto_device_mapdevice_map = infer_auto_device_map(my_model, max_memory={0: "10GiB", 1: "10GiB", "cpu": "30GiB"})

3 完全自行设计设备映射

如果选择完全自行设计设备映射，它应该是一个字典，键是模型的模块名称，值是一个有效的设备标识符（例如GPU的一个整数）或“cpu”用于CPU卸载，“disk”用于磁盘卸载
键需要覆盖整个模型

例如，如果你的模型有两个块（block1和block2），每个块包含三个线性层（linear1、linear2和linear3），一个有效的设备映射可以是：

device_map = {"block1": 0, "block2": 1}

device_map = {"block1": 0,"block2.linear1": 0, "block2.linear2": 1, "block2.linear3": 1}

下面这种映射不是有效的，因为它没有覆盖模型的每个参数

device_map = {"block1": 0, "block2.linear1": 1, "block2.linear2": 1}

为了最有效率，确保设备映射以顺序方式将参数放在GPU上，以避免在GPU之间进行多次数据传输。
- 例如，不要将第一个权重放在GPU 0上，然后将权重放在GPU 1上，最后的权重再放回GPU 0

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/15412.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

huggingface 笔记：device_map

1 基本映射方法

2 `max_memory`

3 完全自行设计设备映射

相关文章

golang的context和chan 的使用

用爬山算法解决离散的优化问题

git管理Codeup云效平台

从反向传播（BP）到BPTT：详细数学推导【原理理解】

采用LoRA方法微调llama3大语言模型

QT教程-一，初识QT

全球最高点赞记录，世界点赞第一名是谁？世界点赞第一人名字的由来

算法提高之最大数

python爬虫登录到海康相机管理页面

交叉熵损失函数计算过程(tensorflow)

Spark Client 配置

P2P 技术：点对点网络的兴起

2024最新私有化部署AI大模型，让每个人都有属于自己的AI助理

Jupyter 使用手册: 探索交互式计算的无限可能

AI应用案例：服务器智能分析管理系统

在Spring 当中存在的八大模式

Micrometer中0.5 0.9 0.99三个百分位数详解

【PPT密码】PPT文件的两种不可编辑情况

Scala学习笔记6: 类

ISCC 2024 部分wp

huggingface 笔记：device_map

1 基本映射方法

2 max_memory

3 完全自行设计设备映射

相关文章

2 `max_memory`