2024-09-30 10:27:26 发布
网友
我尝试使用BeautifulSoup4来解析从http://exporter.nih.gov/ExPORTER_Catalog.aspx?index=0检索到的html如果我打印出结果soup,结果如下:
kZXI9IjAi"/></form></body></html>
在搜索原始html中的最后一个字符9IjaI时,我发现它处于一个巨大的viewstate中间。Beautulsoup似乎对此有异议。有没有提示我可能做错了什么或者如何解析这样一个页面?在
9IjaI
beauthoulsoup使用pluggable HTML parser来构建“soup”;您需要尝试不同的解析器,因为每个解析器都会对断开的页面进行不同的处理。在
但是,我在使用任何解析器解析该页面时没有问题:
>>> from beautifulsoup4 import BeautifulSoup >>> import requests >>> r = requests.get('http://exporter.nih.gov/ExPORTER_Catalog.aspx?index=0') >>> for parser in ('html.parser', 'lxml', 'html5lib'): ... print repr(str(BeautifulSoup(r.text, parser))[-60:]) ... ';\r\npageTracker._trackPageview();\r\n</script>\n</body>\n</html>\n' '();\r\npageTracker._trackPageview();\r\n</script>\n</body></html>' '();\npageTracker._trackPageview();\n</script>\n\n\n</body></html>'
请确保安装了最新的BeautifulSoup4包,我在4.1系列中看到了4.2中解决的一致问题。在
BeautifulSoup4
beauthoulsoup使用pluggable HTML parser来构建“soup”;您需要尝试不同的解析器,因为每个解析器都会对断开的页面进行不同的处理。在
但是,我在使用任何解析器解析该页面时没有问题:
请确保安装了最新的
BeautifulSoup4
包,我在4.1系列中看到了4.2中解决的一致问题。在相关问题 更多 >
编程相关推荐