Scrapy中间件,用于使用selenium下载页面html源代码,并在请求上下文中与web驱动程序交互,最终将HtmlResponse返回给spider

scrapy-selenium-middleware的Python项目详细描述


scrapy selenium中间件

要求

  • 这个下载中间件应该在现有的Scrapy项目中使用
  • 在运行这个中间件的机器上安装Firefox和gekodriver

皮普

  • pip install scrapy-selenium-middleware

使用示例

要获得完整的垃圾项目演示,请转到here

中间件从scrapy project settings
在你那讨厌的项目里设置.py文件添加以下设置

DOWNLOADER_MIDDLEWARES={"scrapy_selenium_middleware.SeleniumDownloader":451}CONCURRENT_REQUESTS=1# multiple concurrent browsers are not supported yetSELENIUM_IS_HEADLESS=FalseSELENIUM_PROXY="http://user:password@my-proxy-server:port"# set to None to not use a proxySELENIUM_USER_AGENT="User-Agent: Mozilla/5.0 (<system-information>) <platform> (<platform-details>) <extensions>"SELENIUM_REQUEST_RECORD_SCOPE=["api*"]# a list of regular expression to record the incoming requests by matching the urlSELENIUM_FIREFOX_PROFILE_SETTINGS={}SELENIUM_PAGE_LOAD_TIMEOUT=120

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
如何使用泛型在Java中生成通用方法?   java从ISO/IEC 197944图像数据文件创建图像   java实现RSA的代码有什么问题?   javascript如何将JsonArray从解析云检索到安卓?   在vaadin中上传和下载java文件   java ListView自定义适配器OnClick启动URL链接   java在一个hbox中提供两个元素的独立对齐   java用类名创建类   java从unix命令行运行jar文件   java FTP下载在文件#146处停止