使用Python BeautifulSoup/lxml删除所有链接

网友

1楼 · 编辑于 2024-06-26 01:36:40

Categories Menu是您正在查找的url。许多网站使用XHR(XMLHTTPRequest)动态生成内容。为了检查网站的组件，请熟悉Firefox中的Firebug插件或Chrome中的开发者工具（内置插件）。您可以在上述附加组件的“网络”选项卡下查看网站中使用的XHR

网友

2楼 · 编辑于 2024-06-26 01:36:40

之所以会发生这种情况，是因为您让BeautifulSoup选择了自己最好的解析器，而您可能没有安装lxml

最好的选择是使用html.parser解析url

from bs4 import BeautifulSoup
import urllib2
url = 'http://www.snapdeal.com/'
data = urllib2.urlopen(url).read()

page = BeautifulSoup(data,'html.parser')

for link in page.findAll('a'):
       l = link.get('href')
       print l

这对我有效。请确保安装依赖项

网友

3楼 · 编辑于 2024-06-26 01:36:40

我认为您应该尝试另一个库，比如selenium，它为您提供了一个web驱动程序，这就是这个库的优点，就我个人而言，我无法使用bs4处理Java脚本

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用Python BeautifulSoup/lxml删除所有链接

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >