字节数组numpython2与python3

import string import numpy as np global_tab = [] global_nb_loop = 0 def numpy_test(N=2000000): global global_tab global global_nb_loop global_nb_loop = N print("Generate %d lines" % global_nb_loop) global_tab = [(u.tostring(),str(v)) for u,v in zip( np.random.choice(list(string.ascii_letters.encode("utf-8")), (N, 15)), np.random.randint(0, 100, N) )] print("%d lines generated" % len(global_tab)) numpy_test(10) for x in range(10): print("%d : %s" % (x, global_tab[x]))

Generate 10 lines 10 lines generated 0 : (b'z\x00\x00\x00v\x00\x00\x00t\x00\x00\x00M\x00\x00\x00I\x00\x00\x00B\x00\x00\x00p\x00\x00\x00Q\x00\x00\x00Z\x00\x00\x00h\x00\x00\x00j\x00\x00\x00p\x00\x00\x00y\x00\x00\x00q\x00\x00\x00t\x00\x00\x00', '63') 1 : (b'm\x00\x00\x00V\x00\x00\x00M\x00\x00\x00k\x00\x00\x00b\x00\x00\x00q\x00\x00\x00B\x00\x00\x00H\x00\x00\x00e\x00\x00\x00t\x00\x00\x00q\x00\x00\x00E\x00\x00\x00J\x00\x00\x00d\x00\x00\x00c\x00\x00\x00', '70') 2 : (b'u\x00\x00\x00W\x00\x00\x00A\x00\x00\x00w\x00\x00\x00O\x00\x00\x00Y\x00\x00\x00I\x00\x00\x00B\x00\x00\x00w\x00\x00\x00z\x00\x00\x00y\x00\x00\x00D\x00\x00\x00d\x00\x00\x00h\x00\x00\x00R\x00\x00\x00', '54') 3 : (b'W\x00\x00\x00Z\x00\x00\x00v\x00\x00\x00X\x00\x00\x00d\x00\x00\x00F\x00\x00\x00Y\x00\x00\x00e\x00\x00\x00w\x00\x00\x00r\x00\x00\x00O\x00\x00\x00I\x00\x00\x00Y\x00\x00\x00f\x00\x00\x00p\x00\x00\x00', '90') 4 : (b'u\x00\x00\x00z\x00\x00\x00s\x00\x00\x00z\x00\x00\x00D\x00\x00\x00a\x00\x00\x00T\x00\x00\x00w\x00\x00\x00a\x00\x00\x00j\x00\x00\x00s\x00\x00\x00A\x00\x00\x00D\x00\x00\x00a\x00\x00\x00g\x00\x00\x00', '37') 5 : (b'H\x00\x00\x00m\x00\x00\x00B\x00\x00\x00S\x00\x00\x00p\x00\x00\x00S\x00\x00\x00B\x00\x00\x00b\x00\x00\x00Q\x00\x00\x00e\x00\x00\x00O\x00\x00\x00i\x00\x00\x00x\x00\x00\x00I\x00\x00\x00I\x00\x00\x00', '88') 6 : (b'V\x00\x00\x00A\x00\x00\x00C\x00\x00\x00S\x00\x00\x00D\x00\x00\x00j\x00\x00\x00D\x00\x00\x00t\x00\x00\x00Q\x00\x00\x00q\x00\x00\x00q\x00\x00\x00j\x00\x00\x00P\x00\x00\x00W\x00\x00\x00h\x00\x00\x00', '84') 7 : (b'X\x00\x00\x00i\x00\x00\x00Z\x00\x00\x00J\x00\x00\x00b\x00\x00\x00Y\x00\x00\x00Q\x00\x00\x00k\x00\x00\x00g\x00\x00\x00p\x00\x00\x00g\x00\x00\x00o\x00\x00\x00h\x00\x00\x00M\x00\x00\x00J\x00\x00\x00', '93') 8 : (b'J\x00\x00\x00i\x00\x00\x00F\x00\x00\x00S\x00\x00\x00b\x00\x00\x00e\x00\x00\x00U\x00\x00\x00B\x00\x00\x00Y\x00\x00\x00t\x00\x00\x00q\x00\x00\x00h\x00\x00\x00X\x00\x00\x00Q\x00\x00\x00k\x00\x00\x00', '93') 9 : (b'x\x00\x00\x00L\x00\x00\x00u\x00\x00\x00B\x00\x00\x00X\x00\x00\x00B\x00\x00\x00G\x00\x00\x00Y\x00\x00\x00P\x00\x00\x00T\x00\x00\x00o\x00\x00\x00g\x00\x00\x00D\x00\x00\x00w\x00\x00\x00o\x00\x00\x00', '41')

2条回答

网友

1楼 · 编辑于 2024-05-03 06:51:23

将global_tab替换为：

global_tab = [(''.join(u), str(v)) for u, v in zip(np.random.choice(list(string.ascii_letters), (N, 15)), np.random.randint(0, 100, N) )]

ascii_letters是string类型，因此您可能不需要调用encode('utf-8')：

^{pr2}$

然后使用.join将得到的数组u转换为字符串。在

网友

2楼 · 编辑于 2024-05-03 06:51:23

为什么

在python中，string.ascii_letters是以字节字符串开头的。python2的“魔力”首先在调用方法.encode('utf-8')时使用默认编码对其进行解码，然后根据请求重新编码。在python2和python3中，编码的结果都是bytes。在

在python 3中，字节串在迭代时的行为不同：它返回整数，而不是长度为1的字节串：

In [52]: list(string.ascii_letters.encode('utf-8'))
Out[52]: 
[97,
 98,
 99,
 ...

因此在python3中

^{pr2}$

isnotN 15个1字节字符串元素的数组。它是由15个整数组成的N个数组。当您稍后调用^{}来获取数组的原始字节时，您可以得到4个或8个字节的整数。在你的例子中，你似乎得到了4，在这台机器上是8。在

可能的修复

一种选择是添加一个强制转换：

In [63]: [(u.tostring(),str(v)) for u, v in zip(
    np.random.choice(list(string.ascii_letters.encode("utf-8")),
                     (N, 15)).astype('|S1'),  # Cast to array-protocol type string
    np.random.randint(0, 100, N))]
Out[63]: 
[(b'811881611111171', '82'),
 (b'816878668111171', '46'),
 (b'811118881668718', '53'),
 (b'971861817181818', '49'),
 (b'118618991678978', '81'),
 ...

另一种方法是完全跳过编码，尽可能信任本机字符串类型（除非确实需要字节字符串），并使用str.join()：

In [74]: [(''.join(u), str(v)) for u, v in zip( 
    np.random.choice(list(string.ascii_letters),
                     (N, 15)),
    np.random.randint(0, 100, N))]
Out[74]: [('IJTlleYqZXmSJaW', '32')]

{{cd7}而不是cd6}：

In [95]: [(u.tostring(), str(v)) for u, v in zip(
    np.random.choice(bytearray(string.ascii_letters.encode('utf-8')),
                     (N, 15)),
    np.random.randint(0, 100, N))]
Out[95]: [(b'MPvbDEQIdAVBQVz', '83')]

一些时间安排

下面是他们在python3中使用N = 2000000在这台机器上执行的操作：

无需原始铸件：

In [69]: %timeit [(u.tostring(), str(v)) for u, v in zip( np.random.choice(list(string.ascii_letters.encode('utf-8')), (N, 15)), np.random.randint(0, 100, N))]
1 loops, best of 3: 4.62 s per loop

演员阵容：

In [70]: %timeit [(u.tostring(), str(v)) for u, v in zip( np.random.choice(list(string.ascii_letters.encode('utf-8')), (N, 15)).astype('|S1'), np.random.randint(0, 100, N))]
1 loops, best of 3: 7.07 s per loop

使用本机字符串类型和联接：

In [71]: %timeit [(''.join(u), str(v)) for u, v in zip( np.random.choice(list(string.ascii_letters), (N, 15)), np.random.randint(0, 100, N))]
1 loops, best of 3: 12.1 s per loop

用bytearray()包装：

In [93]: %timeit [(u.tostring(), str(v)) for u, v in zip( np.random.choice(bytearray(string.ascii_letters.encode('utf-8')), (N, 15)), np.random.randint(0, 100, N))]
1 loops, best of 3: 4.56 s per loop

为什么

可能的修复

一些时间安排

相关问题更多 >

编程相关推荐

热门问题

热门文章