回答此问题可获得 20 贡献值,回答如果被采纳可获得 50 分。
<p>我需要把一堆单词矢量化,我正在寻找更快的方法。你知道吗</p>
<p>假设我有一个字符串<code>"blahbla"</code>,它使用4个不同的字母<code>["a", "b", "h", "l"]</code>。我创建了一个翻译表<code>{'a': 0, 'b': 1, 'h': 2, 'l': 3}</code>(它对我所有的单词都是一样的)</p>
<p>我的目标是把这个词转换成:<code>[1, 3, 0, 2, 1, 3, 0]</code></p>
<p>我可以做到:</p>
<pre><code>word = "blahbla"
symbols = ["a", "b", "h", "l"]
trans_table = {s: i for i, s in enumerate(symbols)}
word = [trans_table[letter] for letter in word]
</code></pre>
<p>但是你知道更快的方法吗?你知道吗</p>
<p><strong>编辑
我之前说过,表格将保持不变,实际上,我在处理所有单词之前计算了下表:</p>
<pre><code>symbols = [' ', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k',
'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w',
'x', 'y', 'z', 'à', 'â', 'ç', 'è', 'é', 'ê', 'î', 'ï', 'ô',
'û', 'ü']
</code></pre>
<p>每个词都一样。对不起,如果不清楚的话。你知道吗</p>