许多Facebook的粉丝页面现在采用以下格式-https://www.facebook.com/TiltedKiltEsplanade,其中“tilledkiltesplanade”是页面所有者声明的名称的一个示例。但是,同一页面的RSS提要位于https://www.facebook.com/feeds/page.php?id=414117051979234&format=rss20,其中414117051979234是一个ID,可以通过转到https://graph来确定。facebook.com/tilteskiltesplanade并查找页面上列出的最后一个数字标识(页面顶部有两个类似的ID,但可以忽略它们)。在
我有一个很长的Facebook粉丝页面列表,我想快速抓取对应于这些页面的数字id,这样我就可以将它们添加到RSS阅读器中。刮掉这些页面最简单的方法是什么?我对Scrapy很熟悉,但我不确定是否可以使用它,因为页面的图形版本没有以允许轻松刮取的方式进行标记(据我所知)
谢谢。在
graph请求的输出是一个JSON对象。这比HTML内容更容易处理。在
这将是您所要查找的内容的简单实现:
输出:
^{pr2}$相关问题 更多 >
编程相关推荐