torch.utils.data.DataLoader参数分析

1、dataset：（数据类型 dataset）

输入的数据类型,这里是原始数据的输入。PyTorch内也有这种数据结构。

2、batch_size：（数据类型 int）

批训练数据量的大小，根据具体情况设置即可（默认：1）。PyTorch训练模型时调用数据不是一行一行进行的（这样太没效率），而是一捆一捆来的。这里就是定义每次喂给神经网络多少行数据，如果设置成1，那就是一行一行进行（个人偏好，PyTorch默认设置是1）。每次是随机读取大小为batch_size。如果dataset中的数据个数不是batch_size的整数倍，这最后一次把剩余的数据全部输出。若想把剩下的不足batch size个的数据丢弃，则将drop_last设置为True，会将多出来不足一个batch的数据丢弃。

3、shuffle：（数据类型 bool）

洗牌。默认设置为False。在每次迭代训练时是否将数据洗牌，默认设置是False。将输入数据的顺序打乱，是为了使数据更有独立性，但如果数据是有序列特征的，就不要设置成True了。

4、collate_fn：（数据类型 callable，没见过的类型）

将一小段数据合并成数据列表，默认设置是False。如果设置成True，系统会在返回前会将张量数据（Tensors）复制到CUDA内存中。

5、batch_sampler：（数据类型 Sampler）

批量采样，默认设置为None。但每次返回的是一批数据的索引（注意：不是数据）。其和batch_size、shuffle 、sampler and drop_last参数是不兼容的。我想，应该是每次输入网络的数据是随机采样模式，这样能使数据更具有独立性质。所以，它和一捆一捆按顺序输入，数据洗牌，数据采样，等模式是不兼容的。

6、sampler：（数据类型 Sampler）

采样，默认设置为None。根据定义的策略从数据集中采样输入。如果定义采样规则，则洗牌（shuffle）设置必须为False。

7、num_workers：（数据类型 Int）

工作者数量，默认是0。使用多少个子进程来导入数据。设置为0，就是使用主进程来导入数据。注意：这个数字必须是大于等于0的，负数估计会出错。

8、pin_memory：（数据类型 bool）

内存寄存，默认为False。在数据返回前，是否将数据复制到CUDA内存中。

9、drop_last：（数据类型 bool）

丢弃最后数据，默认为False。设置了 batch_size 的数目后，最后一批数据未必是设置的数目，有可能会小些。这时你是否需要丢弃这批数据。

10、timeout：（数据类型 numeric）

超时，默认为0。是用来设置数据读取的超时时间的，但超过这个时间还没读取到数据的话就会报错。所以，数值必须大于等于0。

11、worker_init_fn（数据类型 callable，没见过的类型）

子进程导入模式，默认为Noun。在数据导入前和步长结束后，根据工作子进程的ID逐个按顺序导入数据。

import torch
import torch.utils.data as DataBATCH_SIZE = 5x = torch.linspace(1, 11, 11)
y = torch.linspace(11, 1, 11)print(x)
print(y)# 把数据放在数据库中
torch_dataset = Data.TensorDataset(x, y)
loader = Data.DataLoader(#从数据库中每次抽出batch_size个样本dataset=torch_dataset,batch_size=BATCH_SIZE,#将输入数据的顺序打乱shuffle=True,#工作者数量，默认是0。使用多少个子进程来导入数据。设置为0，就是使用主进程来导入数据。注意：这个数字必须是大于等于0的，负数估计会出错。# num_workers=2,
)def show_batch():for epoch in range(3):print("第{}个epoch:".format(epoch))for step, (batch_x, batch_y) in enumerate(loader):# 开始训练，每次去除batch_size个数据print("steop:{}, batch_x:{}, batch_y:{}".format(step, batch_x, batch_y))if __name__ == '__main__':show_batch()输出：
tensor([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12., 13.])
tensor([13., 12., 11., 10.,  9.,  8.,  7.,  6.,  5.,  4.,  3.,  2.,  1.])
第0个epoch:
steop:0, batch_x:tensor([13.,  3., 10.,  4., 11.]), batch_y:tensor([ 1., 11.,  4., 10.,  3.])
steop:1, batch_x:tensor([12.,  6.,  1.,  9.,  8.]), batch_y:tensor([ 2.,  8., 13.,  5.,  6.])
steop:2, batch_x:tensor([5., 7., 2.]), batch_y:tensor([ 9.,  7., 12.])
第1个epoch:
steop:0, batch_x:tensor([ 8.,  2.,  5.,  4., 12.]), batch_y:tensor([ 6., 12.,  9., 10.,  2.])
steop:1, batch_x:tensor([11.,  7., 10.,  9.,  3.]), batch_y:tensor([ 3.,  7.,  4.,  5., 11.])
steop:2, batch_x:tensor([ 1., 13.,  6.]), batch_y:tensor([13.,  1.,  8.])
第2个epoch:
steop:0, batch_x:tensor([ 5.,  9.,  7.,  8., 11.]), batch_y:tensor([9., 5., 7., 6., 3.])
steop:1, batch_x:tensor([13., 12.,  4.,  6., 10.]), batch_y:tensor([ 1.,  2., 10.,  8.,  4.])
steop:2, batch_x:tensor([2., 3., 1.]), batch_y:tensor([12., 11., 13.])
第3个epoch:
steop:0, batch_x:tensor([ 4.,  7., 13.,  1., 12.]), batch_y:tensor([10.,  7.,  1., 13.,  2.])
steop:1, batch_x:tensor([ 9.,  6.,  8., 10.,  3.]), batch_y:tensor([ 5.,  8.,  6.,  4., 11.])
steop:2, batch_x:tensor([ 2., 11.,  5.]), batch_y:tensor([12.,  3.,  9.])

若drop_last=True

丢弃最后数据，默认为False。设置了 batch_size 的数目后，最后一批数据未必是设置的数目，有可能会小些。这时你是否需要丢弃这批数据。

import torch
import torch.utils.data as DataBATCH_SIZE = 5x = torch.linspace(1, 13, 13)
y = torch.linspace(13, 1, 13)print(x)
print(y)# 把数据放在数据库中
torch_dataset = Data.TensorDataset(x, y)
loader = Data.DataLoader(#从数据库中每次抽出batch_size个样本dataset=torch_dataset,batch_size=BATCH_SIZE,#将输入数据的顺序打乱shuffle=True,#工作者数量，默认是0。使用多少个子进程来导入数据。设置为0，就是使用主进程来导入数据。注意：这个数字必须是大于等于0的，负数估计会出错。# num_workers=2,drop_last=True
)def show_batch():#整个样本数据使用4次for epoch in range(4):print("第{}个epoch:".format(epoch))for step, (batch_x, batch_y) in enumerate(loader):# 开始训练，每次去除batch_size个数据print("steop:{}, batch_x:{}, batch_y:{}".format(step, batch_x, batch_y))if __name__ == '__main__':show_batch()输出：
tensor([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12., 13.])
tensor([13., 12., 11., 10.,  9.,  8.,  7.,  6.,  5.,  4.,  3.,  2.,  1.])
第0个epoch:
steop:0, batch_x:tensor([ 4., 10.,  7.,  3.,  5.]), batch_y:tensor([10.,  4.,  7., 11.,  9.])
steop:1, batch_x:tensor([ 9.,  8.,  2., 11., 13.]), batch_y:tensor([ 5.,  6., 12.,  3.,  1.])
第1个epoch:
steop:0, batch_x:tensor([ 3.,  7., 13.,  1.,  9.]), batch_y:tensor([11.,  7.,  1., 13.,  5.])
steop:1, batch_x:tensor([ 8.,  5., 11., 10.,  2.]), batch_y:tensor([ 6.,  9.,  3.,  4., 12.])
第2个epoch:
steop:0, batch_x:tensor([ 7.,  1.,  5.,  8., 13.]), batch_y:tensor([ 7., 13.,  9.,  6.,  1.])
steop:1, batch_x:tensor([ 9., 10.,  2.,  4.,  3.]), batch_y:tensor([ 5.,  4., 12., 10., 11.])
第3个epoch:
steop:0, batch_x:tensor([ 4.,  5., 11.,  6.,  8.]), batch_y:tensor([10.,  9.,  3.,  8.,  6.])
steop:1, batch_x:tensor([ 2.,  1.,  9., 10., 12.]), batch_y:tensor([12., 13.,  5.,  4.,  2.])

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/771521.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！