<p>此文本通常不是UTF8或Unicode。是<a href="https://en.wikipedia.org/wiki/Character_encodings_in_HTML" rel="nofollow noreferrer">HTML-encoded text</a>,很可能是越南人。这些转义序列对应于越南语字符,例如<code>&#432</code>isư-事实上,我只是在SO编辑框中输入了编辑序列,出现了正确的字符。<code>&#7899;</code>是ớ。你知道吗</p>
<p>将整个文本复制到代码块外会产生</p>
<p>6814;裸体;185;151;49</p>
<p>6815;金门洞;83;330;0</p>
<p>6816;裸子体;287;105;42</p>
<p>公元6817年;公元69年;公元305年;公元0年</p>
<p>6818;哈伊乌;81;294;0</p>
<p>第6819页;hải cẩu;第64页;第338页;第0页</p>
<p>第6820页;第62页;第269页;第0页</p>
<p>6848;组织粒;57;262;0</p>
<p>6849;海文纳;56;248;0</p>
<p>6850小时</p>
<p>6851;全息鳃;97;329;0</p>
<p>6852;跳码;65;296;0</p>
<p>6853小时432小时417小时152小时298小时</p>
<p>6854;休伊</p>
<p>6855;透明体;73;371;0</p>
<p>6883;朱马尔;83;295;0</p>
<p>6884;凯克;86;326;0</p>
<p>6885;科恩科恩;73;303;0</p>
<p>6886;孔;64;323;0</p>
<p>6887;克ướu;62;325;0</p>
<p>搜索HọKhướu返回<a href="https://vi.wikipedia.org/wiki/H%E1%BB%8D_Kh%C6%B0%E1%BB%9Bu" rel="nofollow noreferrer">this Wikipedia page about Họ Khướu</a>。你知道吗</p>
<p>我认为可以肯定这是HTML编码的越南语文本。要将其转换为Unicode,可以使用<a href="https://docs.python.org/3/library/html.html" rel="nofollow noreferrer">html.unescape</a>:</p>
<pre><code>import html
line='6887;kh&#432;&#7899;u;62;325;0'
properLine=html.unescape(line)
</code></pre>
<p><strong>更新</p>
<p>上面发布的文本只是原始文本,每页有一个额外的换行符。它是SO的markdown渲染器,它将转义序列转换为相应的glyph。你知道吗</p>
<p>有趣的是这句话:</p>
<pre><code>6853;h&#432&#417u cao c&#7893;152;298;0
</code></pre>
<p>无法呈现,因为HTML实体未正确终止。<code>html.unescape</code>另一方面,<em>将</em>转换字符。显然,<code>html.unescape</code>比SO的markdown渲染器更宽容。你知道吗</p>
<p>以下任一行:</p>
<pre><code>html.unescape('6853;h&#432;&#417;u cao c&#7893;152;298;0')
html.unescape('6853;h&#432&#417u cao c&#7893;152;298;0')
</code></pre>
<p>退货:</p>
<pre><code>6853;h\u01b0\u01a1u cao c\u1ed5152;298;0
</code></pre>