如何翻译/转换已读HTML文档中unicode转义的<和>?

2024-09-30 08:14:53 发布

您现在位置:Python中文网/ 问答频道 /正文

当我使用urllib2打开器阅读python中的一些(但不是全部)HTML文件时,在某些文件中,我得到的文本填充了大量的反斜杠和unicode 003c字符串。我正在将此文本发送到BeautifulGroup,但在使用findAll()查找所需内容时遇到了困难,我现在认为这是由于所有这些unicode字符串造成的。在

这是怎么回事,我怎么摆脱它?在

类似的方法汤。美化()没有效果。在

下面是一些示例代码(来自Facebook的个人资料)

\\u003cdiv class=\\"pas status fcg\\">Loading...\\u003c\\/div>
\\u003c\\/div>\\u003cdiv class=\\"uiTypeaheadView fbChatBuddyListTypeaheadView dark hidden_elem\\" id=\\"u971289_14\\">\\u003c\\/div>
\\u003c\\/div>\\u003c\\/div>\\u003cdiv class=\\"fbNubFlyoutFooter\\">
\\u003cdiv class=\\"uiTypeahead uiClearableTypeahead fbChatTypeahead\\" id=\\"u971289_15\\">
\\u003cdiv class=\\"wrap\\">\\u003clabel class=\\"clear uiCloseButton\\" for=\\"u971291_21\\">

同一个HTML页面在“查看源代码”窗口中看起来很正常。在

编辑:这是生成文本的代码。奇怪的是,我没有从其他HTML页面得到这种输出。注意,我已经用这里的用户名和密码替换了用户名和密码。如果你换掉这两个,你可以在你自己的FB档案上试试这个。在

^{pr2}$

Tags: 文件字符串代码文本divid密码html
1条回答
网友
1楼 · 发布于 2024-09-30 08:14:53

u"""构造用于python2。您省略了python3的u。在

>>> a=u"""\\u003cdiv class=\\"pas status fcg\\">Loading...\\u003c\\/div>
... \\u003c\\/div>\\u003cdiv class=\\"uiTypeaheadView fbChatBuddyListTypeaheadView dark hidden_elem\\" id=\\"u971289_14\\">\\u003c\\/div>
... \\u003c\\/div>\\u003c\\/div>\\u003cdiv class=\\"fbNubFlyoutFooter\\">
... \\u003cdiv class=\\"uiTypeahead uiClearableTypeahead fbChatTypeahead\\" id=\\"u971289_15\\">
... \\u003cdiv class=\\"wrap\\">\\u003clabel class=\\"clear uiCloseButton\\" for=\\"u971291_21\\">
... """
>>> print(a.decode('unicode_escape')).replace('\\/', '/')
<div class="pas status fcg">Loading...<\/div>
<\/div><div class="uiTypeaheadView fbChatBuddyListTypeaheadView dark hidden_elem" id="u971289_14"><\/div>
<\/div><\/div><div class="fbNubFlyoutFooter">
<div class="uiTypeahead uiClearableTypeahead fbChatTypeahead" id="u971289_15">
<div class="wrap"><label class="clear uiCloseButton" for="u971291_21">

我希望这有帮助。如果没有,请改进您在问题中提供的信息。在

编辑:建议的答案现在也将\/改为/。在

相关问题 更多 >

    热门问题