并非所有标记都在python中显示

request = urllib2.Request(urllink, None, {'User-Agent':'Mosilla/5.0 (\ Macintosh; Intel\ Mac OS X 10_7_4) AppleWebKit/536.11 (KHTML, like Gecko) \ Chrome/20.0.1132.57 Safari/536.11'}) urlfile = urllib2.urlopen(request) page = urlfile.read() soup = BeautifulSoup(page)

1条回答

网友

1楼 · 发布于 2024-09-29 21:50:20

当您请求一个url时，它将返回该页的源代码。也许页面包含img，css，js文件（我们称之为静态文件）。而你的浏览器会呈现html，它会根据那些静态文件的url来请求资源。例如<img src="/static/a.png" />，那么浏览器将请求/static/a.png获取img。与css和js文件相同。你知道吗

此外，现在大多数网站都是web2.0，这意味着我们可以使用ajax异步请求资源。e、 g.$.ajax({url:'/xxx' ...})（jquery）。js还可以修改dom树，比如添加一个新的标记。你知道吗

所以如果你想像浏览器一样获取所有内容。您需要解析html或根据javascript重写ajax请求来实现这一点。或者如果你有一个浏览器内核，比如webkit，你也可以做和browser一样的事情。例如ghost.py，selenium capserjs，phantomjs

相关问题更多 >

编程相关推荐

热门问题

热门文章