因此,我对此进行了大量研究,到目前为止,我使用了一个字符串并执行以下操作:
title = title.decode('windows-1252')
title = title.encode('utf-8','replace')
我的字符串如下所示,尽管可能有其他字符没有被删除。在
^{pr2}$删除的标点:
title = title.translate(string.punctuation)
这似乎变成(删除标点后):
Bus • Lorry • IT Construction
但现在我遇到了一个问题,我把绳子分开,试着把它连接起来。我把它分成:
['Bus', '\xc3\xa2\xe2\x82\xac\xc2\xa2', 'Lorry', '\xc3\xa2\xe2\x82\xac\xc2\xa2', 'IT', 'Construction']
签署人: 字数=文本.拆分('')
一旦我记下每个单词的词干,尝试重新加入:
text = ' '.join([stemmer.stem(word) for word in words])
然后,在这一点上,我得到一个问题:
'ascii' codec can't decode byte 0xc3 in position 0: ordinal not in range(128)
我想我已经把这些网站解码了,但我已经把它解码了。。。。在
输入数据后需要解码,将其用作unicode,并将其编码为输出。当有人试图将编码字符串制作成unicode对象而不知道原始编码时,会引发^{cd1>}。
在您的情况下,我将尝试在对UTF-8进行编码之前进行拆分并运行词干器。这只需要输出或(可能)存储。
相关问题 更多 >
编程相关推荐