将字符串转换为整数列表

2024-09-30 06:24:18 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要把一堆单词矢量化,我正在寻找更快的方法。你知道吗

假设我有一个字符串"blahbla",它使用4个不同的字母["a", "b", "h", "l"]。我创建了一个翻译表{'a': 0, 'b': 1, 'h': 2, 'l': 3}(它对我所有的单词都是一样的)

我的目标是把这个词转换成:[1, 3, 0, 2, 1, 3, 0]

我可以做到:

word = "blahbla"
symbols = ["a", "b", "h", "l"]
trans_table = {s: i for i, s in enumerate(symbols)}
word = [trans_table[letter] for letter in word]

但是你知道更快的方法吗?你知道吗

编辑 我之前说过,表格将保持不变,实际上,我在处理所有单词之前计算了下表:

symbols = [' ', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k',
           'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w',
           'x', 'y', 'z', 'à', 'â', 'ç', 'è', 'é', 'ê', 'î', 'ï', 'ô',
           'û', 'ü']

每个词都一样。对不起,如果不清楚的话。你知道吗


Tags: 方法字符串in目标transfor字母table
2条回答

您是否需要创建自己的映射?为什么不直接使用ord函数将unicode字符转换为整数值呢?你知道吗

> word = 'foo'
> list(map(ord, word))
[102, 111, 111]

给定一个长度为n的字符串,您将无法更好地处理(n)复杂性。我能看到的唯一改进是将map操作符与内置函数一起使用,在本例中是dict.__getitem__。这将证明比使用列表理解更有效:

symbols = ["a", "b", "h", "l"]
trans_table = {s: i for i, s in enumerate(symbols)}

word = "blahbla" * 100000

%timeit [trans_table[letter] for letter in word]  # 67.6 ms
%timeit list(map(trans_table.__getitem__, word))  # 59.3 ms

相关问题 更多 >

    热门问题