使用numpy dtype和转换器在子列中拆分csv列

def convertToValErrArr(txt): splitted = txt.split("+-") return np.array([(splitted[0], splitted[1])], dtype=TypeValErr) print(np.array([("Sample3", 300, convertToValErrArr("1800+-7"))], dtype=TypeCSV))

ConvertFunc = lambda x: convertToValErrArr(x) file = np.genfromtxt("test.csv", delimiter=",", autostrip=True, dtype=TypeCSV, skip_header=1, converters={2: lambda x: convertToValErrArr(str(x))})

Traceback (most recent call last): File "csvimport.py", line 28, in <module> converters={2: lambda x: convertToValErrArr(str(x))}) File "/usr/lib/python3.6/site-packages/numpy/lib/npyio.py", line 1896, in genfromtxt rows = np.array(data, dtype=[('', _) for _ in dtype_flat]) ValueError: size of tuple must match number of fields.

1条回答

网友

1楼 · 发布于 2024-10-02 08:25:28

对于您的dtype和4列，它可以工作（嵌套的dtype和all）

In [58]: TypeValErr = np.dtype([("value", np.int32), ("error", np.int32)])
    ...: TypeCSV=np.dtype({"names": ["name", "time", "intensity"],
    ...:                   "formats": ["U32", np.int32, TypeValErr],
    ...:                   "titles": ["Name", "Time", "Intensity"]})
    ...: 
In [59]: txt=b"""# Name, Time, Intensity
    ...: Sample1, 300, 1000, 5
    ...: Sample2, 300, 1500, 2"""
In [60]: 
In [60]: data=np.genfromtxt(txt.splitlines(), dtype=TypeCSV, delimiter=',',skip_header=True)
In [61]: data
Out[61]: 
array([('Sample1', 300, (1000, 5)), ('Sample2', 300, (1500, 2))], 
      dtype=[(('Name', 'name'), '<U32'), (('Time', 'time'), '<i4'), (('Intensity', 'intensity'), [('value', '<i4'), ('error', '<i4')])])

因此，它能够获取一个简单的值列表，例如['Sample1', 300, 1000, 5]，并将它们映射到嵌套元组上，以保存此数据类型： ('Sample1', 300, (1000, 5))。在

但是转换器不能将['Sample1', '300', '1000+-5']转换为['Sample1', '300', (1000, 5)]，或者，如果它这样做了，它就不是后续使用的正确方法。在

错误消息中的dtype_flat是：

^{pr2}$

因此，您的嵌套数据类型是用如下序列生成的：

In [75]: rows=np.array(('str',1,2, 3),dtype=[('',_) for _ in np.lib.npyio.flatten_dtype(TypeCSV)])
In [76]: rows.view(TypeCSV)
Out[76]: 
array(('str', 1, (2, 3)), 
      dtype=[(('Name', 'name'), '<U32'), (('Time', 'time'), '<i4'), (('Intensity', 'intensity'), [('value', '<i4'), ('error', '<i4')])])

事实上，在错误行之前有一个这样的注释

    if len(dtype_flat) > 1:
        # Nested dtype, eg [('a', int), ('b', [('b0', int), ('b1', 'f4')])]
        # First, create the array using a flattened dtype:
        # [('a', int), ('b1', int), ('b2', float)]
        # Then, view the array using the specified dtype.
        if 'O' in (_.char for _ in dtype_flat):
        ...
        else:
            rows = np.array(data, dtype=[('', _) for _ in dtype_flat])
            output = rows.view(dtype)

data此时是“row”元组的列表，这些元组已经通过转换器传递：

rows = list(
        zip(*[[conv._strict_call(_r) for _r in map(itemgetter(i), rows)]
              for (i, conv) in enumerate(converters)]))

简化了转换过程

In [84]: converters = [str, int, int, int]
In [85]: row = ['one','1','2','3']
In [86]: [conv(r) for conv, r in zip(converters, row)]
Out[86]: ['one', 1, 2, 3]

但实际上更接近：

In [87]: rows = [row,row]
In [88]: rows
Out[88]: [['one', '1', '2', '3'], ['one', '1', '2', '3']]
In [89]: from operator import itemgetter
In [90]: [[conv(r) for r in map(itemgetter(i), rows)] for (i, conv) in enumerate(converters)]
Out[90]: [['one', 'one'], [1, 1], [2, 2], [3, 3]]
In [91]: list(zip(*_))
Out[91]: [('one', 1, 2, 3), ('one', 1, 2, 3)]

因此，长短之分在于converters不能将一列拆分为2列或更多列。拆分、转换然后映射到数据类型的过程以错误的顺序发生。我在一开始演示的可能是简单的-通过文本处理行逐行传递文件。它将用指定的分隔符替换+-。然后，文件将具有正确的列数来处理您的数据类型。在

相关问题更多 >

编程相关推荐

热门问题

热门文章