在Heroku上部署时,ScrapyRT不会从spider返回响应

2024-09-29 17:10:49 发布

您现在位置:Python中文网/ 问答频道 /正文

我希望你很好

我在heroku部署了一只刮屑蜘蛛。 它使用splash实现javascript,scrapyrt实现自动化,Flask实现web应用。 当我从命令行运行spider时,它在本地和Heroku上都可以正常工作

但是,当我使用scrapyrt从浏览器中触发它时,它不会返回任何信息,它只会持续工作一段时间,然后显示类似于“无法访问此网站scraping-biovalor.herokuapp.com花费了太长时间才响应”的消息

这是来自heroku的日志,显示scrapyrt显然已启动并运行

2020-11-20T18:10:36.321362+00:00 heroku[web.1]: Starting process with command `scrapyrt -i 0.0.0.0 -p 42629`
2020-11-20T18:10:39.225541+00:00 app[web.1]: 2020-11-20 15:10:39-0300 [-] Log opened.
2020-11-20T18:10:39.275963+00:00 app[web.1]: 2020-11-20 15:10:39-0300 [-] Site starting on 42629
2020-11-20T18:10:39.276237+00:00 app[web.1]: 2020-11-20 15:10:39-0300 [-] Starting factory <twisted.web.server.Site object at 0x7fbc02d749d0>
2020-11-20T18:10:39.586687+00:00 heroku[web.1]: State changed from starting to up

我使用这个url https://scraping-biovalor.herokuapp.com:21121/crawl.json?start_requests=True&spider_name=biovalor来触发爬行器。 (端口可能会有所不同,因为它是由heroku分配的,每次应用程序空闲并由heroku重新启动时都会更改)

其他资料:

  • 我正在使用python 3.7.9
  • 浏览器工作时不会生成任何日志。至少是我能看到的那些 heroku日志--尾部--应用程序抓取biovalor

如果您能帮我解决这个问题,我将不胜感激,因为我完全迷路了(这是我第一次部署到Heroku)。我不知道这是否是Heroku上的scrapyrt的具体问题,或者是网络问题或其他问题

非常感谢

致以最良好的祝愿

里卡多


Tags: comwebappheroku部署site浏览器herokuapp

热门问题