WMT2018 news commentary Chinese dataset weird ch

2024-10-02 18:27:41 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在为中国人开发WMT2018数据集,以便进行机器翻译。我发现数据中有很多奇怪的字符,如下所示:

enter image description here

我认为这是编码问题,所以我将其转换为支持汉字的UTF-8文本文件,但这个问题仍然存在

有没有办法解决这个问题


Tags: 数据编码字符utf文本文件办法wmt2018