我一直在尝试用漂亮的汤在下面的网站页面上获取facebook的评论。在
import BeautifulSoup
import urllib2
import re
url = 'http://techcrunch.com/2012/05/15/facebook-lightbox/'
fd = urllib2.urlopen(url)
soup = BeautifulSoup.BeautifulSoup(fd)
fb_comment = soup("div", {"class":"postText"}).find(text=True)
print fb_comment
输出为空集。但是,我可以清楚地看到facebook的评论在techcrunch站点的inspect元素中的那些标签中(我对Python不太熟悉,想知道这种方法是否正确,我在哪里出错?)在
Facebook的评论是使用AJAX动态加载的。您可以从原始页面中抓取以下内容:
之后,你需要向某个Facebook API发送一个请求,该API将给出该标记中URL的注释。在
您要查找的页面部分未包含在源文件中。使用浏览器,您可以通过打开页面源代码亲自查看这些内容。在
在将文档传递给BeautifulGroup之前,您需要使用类似于pywebkitgtk的方法来执行javascript
就像Christopher和Thiefmaster一样:这都是因为javascript。在
但是,如果您真的需要这些信息,您仍然可以检索它,这要归功于http://seleniumhq.org上的Selenium,然后在这个输出上使用beautifulsoup。在
相关问题 更多 >
编程相关推荐