尝试从scrip中的另一个位置运行一个垃圾爬虫

2024-06-25 07:01:41 发布

您现在位置:Python中文网/ 问答频道 /正文

所有人

我正在尝试完全自动化我的刮削,它由3个步骤组成:

1-获取广告索引页列表(非废品,出于各种原因) 2-从第一步获得的索引页中获取广告URL列表(无用的工作)

我的垃圾项目在通常的目录中:

C:\Python27\Scripts\getadUsersFromIndex_项目\GetADUsersFromIndex\spiders\GetAdUrls_蜘蛛网.py (“GetAdUrls_spider”文件中的spider的名称是(name=“GetAdUrls”))

自动执行步骤1和步骤2的脚本位于以下目录中:

C:\网站\数据\脚本\StepByStepLauncher.py在

我尝试使用Scrapy文档导入爬虫程序,并使用以下代码从脚本内部运行:

from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy.settings import Settings
from scrapy import log
from GetAdUrlsFromIndex.spiders.GetAdUrls_spider import getadurls

spider = getadurls(domain='website.com')
crawler = Crawler(Settings())
crawler.configure()
crawler.crawl(spider)
crawler.start()
log.start()
reactor.run() # the script will block here

我一直收到错误“没有命名的模块GetAdUrlsFromIndex.spider.GetAdUrls_蜘蛛“当我不幸地尝试运行这个脚本时。。我试着把工作目录改到几个不同的地方,我玩弄着名字,似乎什么都没用。。在

谢谢你的帮助。。谢谢!在


Tags: 项目frompyimport目录脚本列表步骤
1条回答
网友
1楼 · 发布于 2024-06-25 07:01:41

如果您在C:\Python27\Scripts\GetAdUrlsFromIndex_project\GetAdUrlsFromIndexC:\Python27\Scripts\GetAdUrlsFromIndex_project\GetAdUrlsFromIndex\spiders中有{},那么尝试用这种方式修改脚本

import sys
from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy.settings import Settings
from scrapy import log

sys.path.append('C:/Python27/Scripts/GetAdUrlsFromIndex_project')
from GetAdUrlsFromIndex.spiders.GetAdUrls_spider import getadurls

spider = getadurls(domain='website.com')
crawler = Crawler(Settings())
crawler.configure()
crawler.crawl(spider)
crawler.start()
log.start()
reactor.run() # the script will block here

相关问题 更多 >