设为首页收藏本站 距【华南国际工业博览会】宝安新馆开幕 : :

Halcon视觉之家 - 51Halcon专注于机器视觉技术

 找回密码
 会员注册

QQ登录

只需一步,快速开始

扫一扫,微信登录

查看: 81|回复: 0

[PyTorch] DataSet 和 DataLoader --加载数据集和引入Mini-Batch

[复制链接]
  • TA的每日心情
    开心
    2021-9-9 10:49
  • 签到天数: 3 天

    连续签到: 1 天

    [LV.2]偶尔看看I

    3

    主题

    4

    帖子

    5

    积分

    Rank: 1

    积分
    5

    切换助手验证会员

    QQ
    发表于 2021-9-4 20:49:15 | 显示全部楼层 |阅读模式

    51Halcon诚邀您的加入,专注于机器视觉开发与应用技术,我们一直都在努力!

    您需要 登录 才可以下载或查看,没有帐号?会员注册

    x

    加载数据集
    数据集
    包括DataSet以及DataLoader两部分,是用于加载的数据集包括数据和索引两部分,而DataLoader是用于引入数据集的Mini-Batch

    Mini-Batch
    均衡于算法的时间复杂度(加载全部数据训练更快)以及算法的准确度(加载单个数据训练更准)

    在外层循环中,每一层是一个epoch(训练周期),在内层循环中,每一次是一个Mini-Batch(Batch的迭代)

    python

    for epoch in range(training_epochs):
    for i in range(total_batch):

    常用术语
    Epoch:所有的样本都进行了一次前馈计算和反向传播即为一次epoch

    Batch-Size:每次训练的时候所使用的样本数量

    Iterations:batch分的次数

    DataLoader
    核心参数
    batch_size,shuffle(洗牌,用于打乱顺序)

    核心功能
    通过获得DataSet的索引以及数据集大小,来自动得生成小批量训练集

    DataLoader先对数据集进行洗牌,再将数据集按照Batch_Size的长度划分为小的Batch,并按照Iterations进行加载,以方便通过循环对每个Batch进行操作



    Dataloader的工作过程

    代码实例
    在构造数据集时,两种对数据加载到内存中的处理方式如下:

    加载所有数据到dataset,每次使用时读索引,适用于数据量小的情况
    只对dataset进行初始化,仅存文件名到列表,每次使用时再通过索引到内存中去读取
    python 3.8.5

    1. import torch
    2. import numpy as np
    3. #DataSet是抽象类,无法实例化
    4. from torch.utils.data import Dataset
    5. #DataLoader可实例化
    6. from torch.utils.data import DataLoader

    7. class DiabetesDataset(Dataset):
    8. def __init__(self,filepath):
    9. xy = np.loadtxt(filepath, delimiter=',', dtype=np.float32)
    10. #获得数据集长度
    11. self.len=xy.shape[0]
    12. self.x_data = torch.from_numpy(xy[:, :-1])
    13. self.y_data = torch.from_numpy(xy[:, [-1]])
    14. #获得索引方法
    15. def __getitem__(self, index):
    16. return self.x_data[index], self.y_data[index]
    17. #获得数据集长度
    18. def __len__(self):
    19. return self.len

    20. dataset = DiabetesDataset('diabetes.csv')
    21. #num_workers表示多线程的读取
    22. train_loader = DataLoader(dataset=dataset,batch_size=32,shuffle=True,num_workers=2)

    23. class Model(torch.nn.Module):
    24. def __init__(self):
    25. super(Model, self).__init__()
    26. self.linear1 = torch.nn.Linear(8, 6)
    27. self.linear2 = torch.nn.Linear(6, 4)
    28. self.linear3 = torch.nn.Linear(4, 1)
    29. self.sigmoid = torch.nn.Sigmoid()

    30. def forward(self, x):
    31. x = self.sigmoid(self.linear1(x))
    32. x = self.sigmoid(self.linear2(x))
    33. x = self.sigmoid(self.linear3(x))
    34. return x

    35. model = Model()

    36. criterion = torch.nn.BCELoss(size_average=True)

    37. optimizer = torch.optim.SGD(model.parameters(), lr=0.1)

    38. if __name__ =='__main__':
    39. for epoch in range(100):
    40. #enumerate:可获得当前迭代的次数
    41. for i,data in enumerate(train_loader,0):
    42. #准备数据dataloader会将按batch_size返回的数据整合成矩阵加载
    43. inputs, labels = data
    44. #前馈
    45. y_pred = model(inputs)
    46. loss = criterion(y_pred, labels)
    47. print(epoch, i, loss.item())
    48. #反向传播
    49. optimizer.zero_grad()
    50. loss.backward()
    51. #更新
    52. optimizer.step()
    复制代码
    您需要登录后才可以回帖 登录 | 会员注册

    本版积分规则

    视觉培训招生

    建议您使用Chrome、Firefox、Edge、IE10及以上版本和360等主流浏览器浏览本网站

    51Halcon会员技术交流会员技术交流 | 51Halcon官方客服咨询官方客服咨询 | Halcon切换助手使用反馈切换助手使用

    算子查询| 申请友链| 小黑屋| 手机版| Archiver|

    © 2015-2021 51Halcon机器视觉  X3.4  粤ICP备15095995号 粤公网安备44030602000670号

    快速回复 返回顶部 返回列表