在解码和编码后删除异常字符

2024-09-25 08:34:42 发布

您现在位置:Python中文网/ 问答频道 /正文

因此,我对此进行了大量研究,到目前为止,我使用了一个字符串并执行以下操作:

title = title.decode('windows-1252')
title = title.encode('utf-8','replace')

我的字符串如下所示,尽管可能有其他字符没有被删除。在

^{pr2}$

删除的标点:

title = title.translate(string.punctuation)

这似乎变成(删除标点后):

Bus • Lorry • IT Construction

但现在我遇到了一个问题,我把绳子分开,试着把它连接起来。我把它分成:

['Bus', '\xc3\xa2\xe2\x82\xac\xc2\xa2', 'Lorry', '\xc3\xa2\xe2\x82\xac\xc2\xa2', 'IT', 'Construction']

签署人: 字数=文本.拆分('')

一旦我记下每个单词的词干,尝试重新加入:

text = ' '.join([stemmer.stem(word) for word in words])

然后,在这一点上,我得到一个问题:

'ascii' codec can't decode byte 0xc3 in position 0: ordinal not in range(128)

我想我已经把这些网站解码了,但我已经把它解码了。。。。在


Tags: 字符串intitleitxe2decodebusx82
1条回答
网友
1楼 · 发布于 2024-09-25 08:34:42

输入数据后需要解码,将其用作unicode,并将其编码为输出。当有人试图将编码字符串制作成unicode对象而不知道原始编码时,会引发^{cd1>}。

在您的情况下,我将尝试在对UTF-8进行编码之前进行拆分并运行词干器。这只需要输出或(可能)存储。

相关问题 更多 >