当我使用urllib2打开器阅读python中的一些(但不是全部)HTML文件时,在某些文件中,我得到的文本填充了大量的反斜杠和unicode 003c字符串。我正在将此文本发送到BeautifulGroup,但在使用findAll()查找所需内容时遇到了困难,我现在认为这是由于所有这些unicode字符串造成的。在
这是怎么回事,我怎么摆脱它?在
类似的方法汤。美化()没有效果。在
下面是一些示例代码(来自Facebook的个人资料)
\\u003cdiv class=\\"pas status fcg\\">Loading...\\u003c\\/div>
\\u003c\\/div>\\u003cdiv class=\\"uiTypeaheadView fbChatBuddyListTypeaheadView dark hidden_elem\\" id=\\"u971289_14\\">\\u003c\\/div>
\\u003c\\/div>\\u003c\\/div>\\u003cdiv class=\\"fbNubFlyoutFooter\\">
\\u003cdiv class=\\"uiTypeahead uiClearableTypeahead fbChatTypeahead\\" id=\\"u971289_15\\">
\\u003cdiv class=\\"wrap\\">\\u003clabel class=\\"clear uiCloseButton\\" for=\\"u971291_21\\">
同一个HTML页面在“查看源代码”窗口中看起来很正常。在
编辑:这是生成文本的代码。奇怪的是,我没有从其他HTML页面得到这种输出。注意,我已经用这里的用户名和密码替换了用户名和密码。如果你换掉这两个,你可以在你自己的FB档案上试试这个。在
^{pr2}$
u"""
构造用于python2。您省略了python3的u
。在我希望这有帮助。如果没有,请改进您在问题中提供的信息。在
编辑:建议的答案现在也将
\/
改为/
。在相关问题 更多 >
编程相关推荐