在Python中从字节转换为法语文本

2条回答

网友

1楼 · 编辑于 2024-09-29 01:38:25

出现UnicodeEncodeError是因为在打印时，Python将字符串编码为字节，但在本例中，使用的编码（ASCII）没有与“\xe9”匹配的字符，因此引发了错误。你知道吗

设置PYTHONIOENCODING环境变量将强制Python使用不同的编码—环境变量的值。UTF-8编码可以对任何字符进行编码，因此这样调用程序可以解决以下问题：

PYTHONIOENCODING=UTF-8 python3  europarl_extractor.py

假设代码是这样的：

import gzip

if __name__ == '__main__':
    with gzip.open('europarl-v7.fr.gz', 'rb') as f_in:
        bs = f_in.read()
        txt = bs.decode('utf-8')
        print(txt[:100])

环境变量可以通过其他方式设置-通过export语句、在.bashrc、.profile等中设置

一个有趣的问题是为什么Python试图将输出编码为ASCII。我假设在*nix系统上，Python基本上是查看$LANG环境变量来确定要使用的编码。但是在这种情况下，$LANG的值是fr_FR.UTF-8，而Python使用ASCII作为输出编码。你知道吗

通过查看locale模块的source和这个FAQ，按顺序检查这些环境变量：

'LC_ALL', 'LC_CTYPE', 'LANG', 'LANGUAGE'

因此，可能是LC_ALL或LC_CTYPE中的一个被设置为在您的环境中强制使用ASCII编码的值（您可以通过在终端中运行locale命令进行检查；同时运行locale charmap将告诉您编码本身）。你知道吗

网友

2楼 · 编辑于 2024-09-29 01:38:25

非常感谢你的帮助！我找到了一个简单的解决办法。我不知道为什么它能工作，但我想也许.txt格式在某种程度上是受支持的？如果你知道这个机制，了解它会非常有帮助。你知道吗

with gzip.open(file_path, 'rb') as f_in:
    text = f_in.read()

with open(os.path.join(out_dir, 'europarl.txt'), 'wb') as f_out:
    f_out.write(text)

当我在终端打印文本文件时，它看起来是这样的：

Reprise de la session Je déclare reprise la session du Parlement européen qui avait été interrompue le vendredi 17 décembre dernier et je vous renouvelle tous mes vux en espérant que vous avez passé de bonnes vacances. Comme vous avez pu le constater, le grand "bogue de l'an 2000" ne s'est pas produit. En revanche, les citoyens d'un certain nombre de nos pays ont été victimes de catastrophes naturelles qui ont vraiment été terribles. Vous avez souhaité un débat à ce sujet dans les prochains jours, au cours de cette période de session.

相关问题更多 >

编程相关推荐

热门问题

热门文章