擅长:python、mysql、java
<p>发生错误是因为您正在向UTF-8解码器输入无效的UTF-8。这可能是由于分割字节而不是字符,或者可能是由于错误地试图解码另一种编码,如JIS或EUC,就好像它是UTF-8一样。在Python中,坚持使用unicode字符串是合理的,如果有设置了<a href="https://docs.python.org/3/library/locale.html" rel="nofollow noreferrer">locale</a>参数,系统可能会切换到对文本文件进行解码。即使您有适当的unicode字符串分割也是一个非常重要的问题,因为有代码可以修改其他字符,例如重音符号。幸运的是,日本人没有这种东西(除非有人碰巧把po编码为ho+ring等等)。在</p>
<p>一个潜在的问题是:Mecab的网页(根据google翻译)“除非另有规定,否则使用euc。”如果Mecab在假设它正在读euc的情况下是分词,它将损坏UTF-8。在</p>