Python：用CJKLIB把汉字转换成拼音

from cjklib.characterlookup import CharacterLookup source_file = 'cities_test.txt' dest_file = 'output.txt' s = open(source_file, 'r') d = open(dest_file, 'w') cjk = CharacterLookup('T') for line in s: p = line.split('\t') for p_shard in p: for c in p_shard: readings = cjk.getReadingForCharacter(c.encode('utf-8'), 'Pinyin') d.write(readings[0].encode('utf-8')) d.write('\t') d.write('\n') s.close() d.close()

1条回答

网友

1楼 · 发布于 2024-10-02 10:34:39

你的错误是你没有解码输入流，但你却在转身，把它重新编码，就好像它是UTF-8一样。那是走错了路。在

你有两个选择。在

您可以codecs.open使用显式编码的输入文件，这样每当您从中读取时，总是会得到常规的Unicode字符串，因为解码是自动的。这一直是我强烈的偏好。再也没有文本文件了。在

另一种选择是在将二进制字符串传递给函数之前手动解码它。我讨厌这种风格，因为它几乎总是表明你做错了什么，即使它没有，它也很笨拙，因为大家都出去了。在

我会对输出文件做同样的事情。我只是讨厌看到到处都是.encode("utf-8")和{}。设置流编码并完成它。在

相关问题更多 >

编程相关推荐

热门问题

热门文章