Python从websi中获取fb注释

2024-09-23 04:20:04 发布

您现在位置:Python中文网/ 问答频道 /正文

我一直在尝试用漂亮的汤在下面的网站页面上获取facebook的评论。在

import BeautifulSoup
import urllib2
import re

url = 'http://techcrunch.com/2012/05/15/facebook-lightbox/'

fd = urllib2.urlopen(url)

soup = BeautifulSoup.BeautifulSoup(fd)

fb_comment = soup("div", {"class":"postText"}).find(text=True)

print fb_comment

输出为空集。但是,我可以清楚地看到facebook的评论在techcrunch站点的inspect元素中的那些标签中(我对Python不太熟悉,想知道这种方法是否正确,我在哪里出错?)在


Tags: importrehttpurlfacebookfb网站comment
3条回答

Facebook的评论是使用AJAX动态加载的。您可以从原始页面中抓取以下内容:

<fb:comments href="http://techcrunch.com/2012/05/15/facebook-lightbox/" num_posts="25" width="630"></fb:comments>

之后,你需要向某个Facebook API发送一个请求,该API将给出该标记中URL的注释。在

您要查找的页面部分未包含在源文件中。使用浏览器,您可以通过打开页面源代码亲自查看这些内容。在

在将文档传递给BeautifulGroup之前,您需要使用类似于pywebkitgtk的方法来执行javascript

就像Christopher和Thiefmaster一样:这都是因为javascript。在

但是,如果您真的需要这些信息,您仍然可以检索它,这要归功于http://seleniumhq.org上的Selenium,然后在这个输出上使用beautifulsoup。在

相关问题 更多 >