我的系统规格:Ubuntu17.10,4GB内存,50GB交换
我想从https://www.sanego.de/Arzt/Allgemeine+Chirurgie/抓取所有24.453条记录。在
我无法加载页面,似乎是因为它的大小
最初,网页只显示前30条记录。单击按钮“title=”Mehr anzeigen“'一次我可以加载另外30多条记录。可以重复此操作,直到加载所有记录。因此,它是用javascript动态生成的。在
我的想法是按“title=”Mehr anzeigen“”按钮,直到24.453条记录显示在页面上所需的次数。一旦完成,我将能够解析页面并收集所有记录。在
我试过两种不同的蜘蛛。首先,我尝试编写一个实现Selenium的Scrapy spider来呈现动态内容。然而,这个解决方案在内存使用方面成本太高。在加载大约1500条记录后,该进程会吃掉所有RAM并崩溃
我假设这个解决方案可能比前一个更快,内存需求更少,但是页面加载超过了Splash的3600秒的最大超时限制,spider崩溃了。下面我只提供这个spider的代码,因为我觉得Splash可能是一个更好的解决方案。请问你要不要我加上另一个的。在
我在cgroups中运行每一个spider,内存限制为1gb。spide保持在内存限制内,但无论如何在页面完全加载之前崩溃。在
请给我提供一些关于如何实现目标的建议
我就是这样开始泼水的:
sudo cgexec -g memory:limitmem docker run -it --memory="1024m"
--memory-swappiness="100" -p 8050:8050 scrapinghub/splash --max-timeout 3600
我就是这样管理蜘蛛的:
^{pr2}$卡盘主要部件:
from scrapy_splash import SplashRequest
import time
import json
import scrapy
from scrapy import Request
from sanego.items import PersonelItem
class SanegoSpider(scrapy.Spider):
name = "spersonel_spider"
start_urls = ['https://www.sanego.de/Arzt/Fachgebiete/','https://www.sanego.de/Zahnarzt/Fachgebiete/', 'https://www.sanego.de/Heilpraktiker/Fachgebiete/', 'https://www.sanego.de/Tierarzt/Fachgebiete/',]
def parse(self, response):
search_urls = ["https://www.sanego.de" + url for url in response.xpath('//ul[@class="itemList"]/li[contains(@class,"col-md-4")]/a/@href').extract()]
script = """
function main(splash)
local url = splash.args.url
splash.images_enabled = false
assert(splash:go(url))
assert(splash:wait(1))
local element = splash:select('.loadMore')
while element ~= nil do
assert(element:mouse_click())
assert(splash:wait{2,cancel_on_error=true})
element = splash:select('.loadMore')
end
return {
html = splash:html(),
--png = splash:png(),
--har = splash:har(),
}
end
"""
for url in search_urls:
if url == 'https://www.sanego.de/Arzt/Allgemeine+Chirurgie/':
yield SplashRequest(url, self.parse_search_results, args={'wait': 2, 'lua_source': script, 'timeout':3600},endpoint='execute', headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/603.3.8 (KHTML, like Gecko) Version/10.1.2 Safari/603.3.8'})
该页面在AJAX上加载了更多的数据,因此使用简单的Scrapy模拟AJAX,而不使用Splash。在
注意
('p', '1')
参数,并保持递增直到到达最后一页。在相关问题 更多 >
编程相关推荐