BeautifulSoup无法解析长视图

2024-09-30 10:27:26 发布

您现在位置:Python中文网/ 问答频道 /正文

我尝试使用BeautifulSoup4来解析从http://exporter.nih.gov/ExPORTER_Catalog.aspx?index=0检索到的html如果我打印出结果soup,结果如下:

kZXI9IjAi"/></form></body></html>

在搜索原始html中的最后一个字符9IjaI时,我发现它处于一个巨大的viewstate中间。Beautulsoup似乎对此有异议。有没有提示我可能做错了什么或者如何解析这样一个页面?在


Tags: formhttpindexhtmlbody字符exportergov
1条回答
网友
1楼 · 发布于 2024-09-30 10:27:26

beauthoulsoup使用pluggable HTML parser来构建“soup”;您需要尝试不同的解析器,因为每个解析器都会对断开的页面进行不同的处理。在

但是,我在使用任何解析器解析该页面时没有问题:

>>> from beautifulsoup4 import BeautifulSoup
>>> import requests
>>> r = requests.get('http://exporter.nih.gov/ExPORTER_Catalog.aspx?index=0')
>>> for parser in ('html.parser', 'lxml', 'html5lib'):
...     print repr(str(BeautifulSoup(r.text, parser))[-60:])
... 
';\r\npageTracker._trackPageview();\r\n</script>\n</body>\n</html>\n'
'();\r\npageTracker._trackPageview();\r\n</script>\n</body></html>'
'();\npageTracker._trackPageview();\n</script>\n\n\n</body></html>'

请确保安装了最新的BeautifulSoup4包,我在4.1系列中看到了4.2中解决的一致问题。在

相关问题 更多 >

    热门问题