{1{m正在尝试从网站上获取以下数据。在
我设法得到了我需要的数据,但我正在努力在网页上分页。我想知道所有评论的标题(不只是第一页的标题)。在
页面链接的格式是:http://www.airlinequality.com/airline-reviews/airasia-x/page/3/
,其中3
是页面的编号。在
我试图遍历这些url和下面的代码段,但是对分页的抓取不起作用。在
# follow pagination links
for href in response.css('#main > section.layout-section.layout-2.closer-top > div.col-content > div > article > ul li a'):
yield response.follow(href, self.parse)
你能帮帮我吗?提前谢谢你。在
^{pr2}$为了遍历航空公司,我用以下代码解决了这个问题: 它使用上面的代码:
req = Request("http://www.airlinequality.com/review-pages/a-z-airline-reviews/" , headers={'User-Agent': 'Mozilla/5.0'})
html_page = urlopen(req)
soupAirlines = BeautifulSoup(html_page, "lxml")
URL_LIST = []
for link in soupAirlines.findAll('a', attrs={'href': re.compile("^/airline-reviews/")}):
URL_LIST.append("http://www.airlinequality.com"+link.get('href'))
假设scrapy不是一个硬性要求,BeautifulSoup中的以下代码将为您提供所有的评论,并解析出元数据,最后输出pandas数据帧。从每次审核中提取的特定属性包括:
有一个特定的函数来处理分页。这是一个递归函数,因为如果有下一页,我们将再次调用该函数来解析新的url,否则该函数将调用end。在
如果我要做整个站点,我会使用上面的方法,并在每个航空公司上迭代here。我将修改代码以包含一个名为“airline”的列,这样您就可以知道每个评审对应的是哪个航空公司。在
相关问题 更多 >
编程相关推荐