摆脱unicode十进制ch问题的回答

摆脱unicode十进制ch

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一个巨大的文件，看起来像这样： <pre><code>6814;gymnocéphale;185;151;49 6815;gymnodonte;83;330;0 6816;gymnosome;287;105;42 6817;hà mã;69;305;0 6818;h&#7843;i âu;81;294;0 6819;h&#7843;i c&#7849;u;64;338;0 6820;h&#7843;i y&#7871;n;62;269;0 6848;histiophore;57;262;0 6849;hiverneur;56;248;0 6850;h&#7893mang;54;298;0 6851;holobranche;97;329;0 6852;hoplopode;65;296;0 6853;h&#432&#417u cao c&#7893;152;298;0 6854;huy&#7873n &#273;&#7873;62;324;0 6855;hyalosome;73;371;0 6883;jumarre;83;295;0 6884;kéc;86;326;0 6885;k&#7873;n k&#7873;n;73;303;0 6886;khoang;64;323;0 6887;kh&#432;&#7899;u;62;325;0 </code></pre> 如您所见，该文件包含一些unicode十进制数，在使用该文件之前，我想将它们全部替换为拉丁字符。即使用utf-8编码打开它，错误也不会被抑制。你知道吗 你知道怎么做吗。我想创建一个字典并检索索引2中的数字。你知道吗 <pre><code>for : 6883;jumarre;83;295;0; => i have 83 for : 6887;kh&#432;&#7899;u;62;325;0 => i have &#7899 => which is false , i should have 62 </code></pre> <pre><code>with codecs.open('JeuxdeMotsPolarise_test.txt', 'r', 'utf-8', errors = 'ignore') as text_file: text_file =(text_file.read()) #print(text_file) dico_lexique = ({i.split(";")[1]:i.split(";")[2:]for i in text_file.split("\n") if i}) </code></pre> 这是trying@serge命题给出的结果，但行间留有空格。你知道吗 <pre><code> 6814;gymnocéphale;185;151;49 6815;gymnodonte;83;330;0 6816;gymnosome;287;105;42 6817;hà mã;69;305;0 6818;hi âu;81;294;0 6819;hi cu;64;338;0 6820;hi yn;62;269;0 6848;histiophore;57;262;0 6849;hiverneur;56;248;0 6850;h mang;54;298;0 6851;holobranche;97;329;0 6852;hoplopode;65;296;0 6853;hu cao c;152;298;0 6854;huyn ;62;324;0 6855;hyalosome;73;371;0 6883;jumarre;83;295;0 6884;kéc;86;326;0 6885;kn kn;73;303;0 6886;khoang;64;323;0 6887;khu;62;325;0 </code></pre> 编辑：我重新下载原始文件和错误的失踪“；”已得到纠正。你知道吗 例如： =&gt；6850；hổmang；54；298；0（这就是现在更新文件中的显示方式） 谢谢大家

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

此文本通常不是UTF8或Unicode。是<a href="https://en.wikipedia.org/wiki/Character_encodings_in_HTML" rel="nofollow noreferrer">HTML-encoded text</a>，很可能是越南人。这些转义序列对应于越南语字符，例如<code>&#432</code>isư-事实上，我只是在SO编辑框中输入了编辑序列，出现了正确的字符。<code>&#7899;</code>是ớ。你知道吗 将整个文本复制到代码块外会产生 6814；裸体；185；151；49 6815；金门洞；83；330；0 6816；裸子体；287；105；42 公元6817年；公元69年；公元305年；公元0年 6818；哈伊乌；81；294；0 第6819页；hải cẩu；第64页；第338页；第0页 第6820页；第62页；第269页；第0页 6848；组织粒；57；262；0 6849；海文纳；56；248；0 6850小时 6851；全息鳃；97；329；0 6852；跳码；65；296；0 6853小时432小时417小时152小时298小时 6854；休伊 6855；透明体；73；371；0 6883；朱马尔；83；295；0 6884；凯克；86；326；0 6885；科恩科恩；73；303；0 6886；孔；64；323；0 6887；克ướu；62；325；0 搜索HọKhướu返回<a href="https://vi.wikipedia.org/wiki/H%E1%BB%8D_Kh%C6%B0%E1%BB%9Bu" rel="nofollow noreferrer">this Wikipedia page about Họ Khướu</a>。你知道吗 我认为可以肯定这是HTML编码的越南语文本。要将其转换为Unicode，可以使用<a href="https://docs.python.org/3/library/html.html" rel="nofollow noreferrer">html.unescape</a>： <pre><code>import html line='6887;kh&#432;&#7899;u;62;325;0' properLine=html.unescape(line) </code></pre> 更新 上面发布的文本只是原始文本，每页有一个额外的换行符。它是SO的markdown渲染器，它将转义序列转换为相应的glyph。你知道吗 有趣的是这句话： <pre><code>6853;h&#432&#417u cao c&#7893;152;298;0 </code></pre> 无法呈现，因为HTML实体未正确终止。<code>html.unescape</code>另一方面，将转换字符。显然，<code>html.unescape</code>比SO的markdown渲染器更宽容。你知道吗 以下任一行： <pre><code>html.unescape('6853;h&#432;&#417;u cao c&#7893;152;298;0') html.unescape('6853;h&#432&#417u cao c&#7893;152;298;0') </code></pre> 退货： <pre><code>6853;h\u01b0\u01a1u cao c\u1ed5152;298;0 </code></pre>

摆脱unicode十进制ch

1 个回答

相关Python问题