在解码和编码后删除异常字符

2024-09-25 08:34:42 发布

男 | 程序猿一只，喜欢编程写python代码。

因此，我对此进行了大量研究，到目前为止，我使用了一个字符串并执行以下操作：

title = title.decode('windows-1252')
title = title.encode('utf-8','replace')

我的字符串如下所示，尽管可能有其他字符没有被删除。在

^{pr2}$

删除的标点：

title = title.translate(string.punctuation)

这似乎变成（删除标点后）：

Bus â€¢ Lorry â€¢ IT Construction

但现在我遇到了一个问题，我把绳子分开，试着把它连接起来。我把它分成：

['Bus', '\xc3\xa2\xe2\x82\xac\xc2\xa2', 'Lorry', '\xc3\xa2\xe2\x82\xac\xc2\xa2', 'IT', 'Construction']

签署人：字数=文本.拆分（''）

一旦我记下每个单词的词干，尝试重新加入：

text = ' '.join([stemmer.stem(word) for word in words])

然后，在这一点上，我得到一个问题：

'ascii' codec can't decode byte 0xc3 in position 0: ordinal not in range(128)

我想我已经把这些网站解码了，但我已经把它解码了。。。。在

Tags：字符串 in title it xe2 decode bus x82

1条回答

网友

1楼 · 发布于 2024-09-25 08:34:42

输入数据后需要解码，将其用作unicode，并将其编码为输出。当有人试图将编码字符串制作成unicode对象而不知道原始编码时，会引发^{cd1>}。

在您的情况下，我将尝试在对UTF-8进行编码之前进行拆分并运行词干器。这只需要输出或（可能）存储。