UnicodeEndcodeError utf8编码在PythoncfSuite（pycrfsuite）中

for file in filelist: with open(self.datapath + "/" + file, "r", encoding='utf8', errors='ignore') as f: raw_text = [(line.strip("\n").strip(" ").replace(" ", " ").replace(" ", " ")).split(" ") for line in f.readlines() if line != '\n'] data.extend(raw_text)

2条回答

网友

1楼 · 编辑于 2024-10-02 04:22:47

在for循环之前，可以对xseq和yseq上的每个字符串元素使用encode('utf-8')方法。在

我的xseq中的一个元素现在看起来像这样[b'nxtletter=<\xc3\xad']

这是我的密码

def sent2features(data):
    return [extractFeatures(sent) for sent in data]

def sent2labels(data):
    return [extractLabels(sent) for sent in data]

X_train = sent2features(train_data)
Y_train = sent2labels(train_data)

for xseq, yseq in zip(X_train, Y_train):
    trainer.append(xseq, yseq)

extractFeatures和extractLabels函数上的编码行如下所示

^{pr2}$

也许对你有用。祝你好运！在

网友

2楼 · 编辑于 2024-10-02 04:22:47

pycrfsuite文档没有提到它们对特性值和键的Unicode支持。我也不能从示例中判断，因为我不清楚它们是python2还是python3。另外，我对Cython的了解还不足以通过阅读资料给你一个明确的答案。在

无论如何，我建议你尝试两种方法：

在你把钥匙送到图书馆之前，你自己先把钥匙编码一下。如果值也是字符串，也要对它们进行编码。也许库很乐意接受bytes对象。
如果这不起作用（因为它确实想要ASCII），那么使用一些ASCII编码，例如使用urlencode或在字符串上调用Python的ascii()内置函数。后者将使用反斜杠转义符和引号将'can’t'编码为"'can\\u2019t'"。这并不重要，因为分类器不关心特征键的外观，只要相同的输入产生相同的特征键。

我希望这有帮助！在

相关问题更多 >

编程相关推荐

热门问题

热门文章