我正在使用Scrapy并尝试刮取thisurl,当我请求页面上产品的任何数据时,我会将其取出。但是具有paginator类且id=paginator1的div返回为空,即使它是一个包含对下一页的引用的表。我曾尝试对表和css选择器使用xPath选择器,但都返回空。 这就是我尝试的,使用css
In [29]: response.css('span a::attr(href)').extract()
Out[29]:
['/registration/formregistration/new',
'/',
'/catalog/solntsezaschitnye_ochki',
'http://wezom.com.ua/prodvizhenie']
以及
In [31]: response.xpath('//*[@id="paginator1"]/table/tbody/tr[1]/td[2]/span')
Out[31]: []
分页是使用JavaScript生成的,您可以在HTML中看到:
您可以从
<script>
块中提取所有相关信息:然后可以根据the pagination script中的逻辑构建分页url(或者只查看url的样子)。你知道吗
如果查看实际的html源代码(
response.text
),您将看到以下内容:如您所见,div确实是空的,并且是通过javascript填充的。你知道吗
有两个选项可以获取这些链接:
相关问题 更多 >
编程相关推荐