如何将numpy数组列表加载到pytorch数据集加载器？

`[[[ 70 82 94] [ 67 81 93] [ 66 82 94] ..., [182 182 188] [183 183 189] [188 186 192]] [[ 66 80 92] [ 62 78 91] [ 64 79 95] ..., [176 176 182] [178 178 184] [180 180 186]] [[ 62 82 93] [ 62 81 96] [ 65 80 99] ..., [169 172 177] [173 173 179] [172 172 178]] ..., `

3条回答

网友

1楼 · 编辑于 2024-06-23 19:39:31

我认为DataLoader实际需要的是一个子类Dataset的输入。您可以编写自己的数据集类，使其成为Dataset的子类，也可以使用TensorDataset，如下所示：

import torch
import numpy as np
from torch.utils import data

my_x = [np.array([[1.0,2],[3,4]]),np.array([[5.,6],[7,8]])] # a list of numpy arrays
my_y = [np.array([4.]), np.array([2.])] # another list of numpy arrays (targets)

tensor_x = torch.Tensor(my_x) # transform to torch tensor
tensor_y = torch.Tensor(my_y)

my_dataset = data.TensorDataset(tensor_x,tensor_y) # create your datset
my_dataloader = data.DataLoader(my_dataset) # create your dataloader

对我有用。希望对你有帮助。

网友

2楼 · 编辑于 2024-06-23 19:39:31

PyTorchDataLoader需要一个DataSet，因为您可以签入docs。正确的方法是：

torch.utils.data.TensorDataset(*tensors)

这是一个用于包装张量的数据集，其中每个样本将通过沿着第一个维度索引张量来检索。参数*tensors表示具有与第一维相同大小的张量。

另一个是抽象类。

下面是如何将numpy数组转换为张量：

import torch
import numpy as np
n = np.arange(10)
print(n) #[0 1 2 3 4 5 6 7 8 9]
t1 = torch.Tensor(n)  # as torch.float32
print(t1) #tensor([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])
t2 = torch.from_numpy(n)  # as torch.int32
print(t2) #tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=torch.int32)

接受的答案使用了torch.Tensor构造。如果您的图像像素为0-255，则可以使用：

timg = torch.from_numpy(img).float()

或者torchvision^{}方法，将PIL图像或numpy.ndarray转换为张量。

但这里有一个小技巧，你可以把你的核阵列直接。

x1 = np.array([1,2,3])
d1 = DataLoader( x1, batch_size=3)

这也可以，但是如果您打印d1.dataset类型：

print(type(d1.dataset)) # <class 'numpy.ndarray'>

虽然我们实际上需要张量来处理CUDA，所以最好使用张量来填充DataLoader。

网友

3楼 · 编辑于 2024-06-23 19:39:31

因为您有图像，所以可能需要对它们执行转换。所以TensorDataset不是这里最好的选择。相反，您可以创建自己的Dataset。像这样的：

import torch
from torch.utils.data import Dataset, DataLoader
import numpy as np
from PIL import Image


class MyDataset(Dataset):
    def __init__(self, data, targets, transform=None):
        self.data = data
        self.targets = torch.LongTensor(targets)
        self.transform = transform

    def __getitem__(self, index):
        x = self.data[index]
        y = self.targets[index]

        if self.transform:
            x = Image.fromarray(self.data[index].astype(np.uint8).transpose(1,2,0))
            x = self.transform(x)

        return x, y

    def __len__(self):
        return len(self.data)

# Let's create 10 RGB images of size 128x128 and ten labels {0, 1}
data = list(np.random.randint(0, 255, size=(10, 3, 128, 128)))
targets = list(np.random.randint(2, size=(10)))

transform = transforms.Compose([transforms.Resize(64), transforms.ToTensor()])
dataset = MyDataset(data, targets, transform=transform)
dataloader = DataLoader(dataset, batch_size=5)

相关问题更多 >

编程相关推荐

热门问题

热门文章