芹菜、Django和Scrapy:从Django应用程序导入时出错

[2016-01-06 03:05:12,292: ERROR/MainProcess] Task evosched.tasks.scrapingTask[e18450ad-4dc3-47a0-b03d-4381a0e65c31] raised unexpected: ImportError('No module named myutils',) Traceback (most recent call last): File "/home/lee/Desktop/pyco/evo-scraping-min/venv/local/lib/python2.7/site-packages/celery/app/trace.py", line 240, in trace_task R = retval = fun(*args, **kwargs) File "/home/lee/Desktop/pyco/evo-scraping-min/venv/local/lib/python2.7/site-packages/celery/app/trace.py", line 438, in __protected_call__ return self.run(*args, **kwargs) File "evosched/tasks.py", line 35, in scrapingTask cs = CrawlerScript('TestSpider', scrapy_settings) File "evosched/tasks.py", line 13, in __init__ self.crawler = CrawlerProcess(scrapy_settings) File "/home/lee/Desktop/pyco/evo-scraping-min/venv/local/lib/python2.7/site-packages/scrapy/crawler.py", line 209, in __init__ super(CrawlerProcess, self).__init__(settings) File "/home/lee/Desktop/pyco/evo-scraping-min/venv/local/lib/python2.7/site-packages/scrapy/crawler.py", line 115, in __init__ self.spider_loader = _get_spider_loader(settings) File "/home/lee/Desktop/pyco/evo-scraping-min/venv/local/lib/python2.7/site-packages/scrapy/crawler.py", line 296, in _get_spider_loader return loader_cls.from_settings(settings.frozencopy()) File "/home/lee/Desktop/pyco/evo-scraping-min/venv/local/lib/python2.7/site-packages/scrapy/spiderloader.py", line 30, in from_settings return cls(settings) File "/home/lee/Desktop/pyco/evo-scraping-min/venv/local/lib/python2.7/site-packages/scrapy/spiderloader.py", line 21, in __init__ for module in walk_modules(name): File "/home/lee/Desktop/pyco/evo-scraping-min/venv/local/lib/python2.7/site-packages/scrapy/utils/misc.py", line 71, in walk_modules submod = import_module(fullpath) File "/usr/lib/python2.7/importlib/__init__.py", line 37, in import_module __import__(name) File "retail/spiders/Retail_spider.py", line 16, in <module> ImportError: No module named myutils

# /etc/default/celerybeat CELERY_BIN="/home/lee/Desktop/pyco/evo-scraping-min/venv/bin/celery" CELERY_APP="evofrontend" CELERYBEAT_CHDIR="/home/lee/Desktop/pyco/evo-scraping-min/evofrontend/" # Django settings module export DJANGO_SETTINGS_MODULE="evofrontend.settings"

├── evofrontend │ ├── db.sqlite3 │ ├── evofrontend │ │ ├── celery.py │ │ ├── __init__.py │ │ ├── settings.py │ │ ├── urls.py │ │ └── wsgi.py │ ├── evosched │ │ ├── __init__.py │ │ ├── myutils.py │ │ └── tasks.py │ └── manage.py └── evo-retail └── retail ├── logs ├── retail │ ├── __init__.py │ ├── settings.py │ └── spiders │ ├── __init__.py │ └── Retail_spider.py └── scrapy.cfg

# evofrontend/evofrontend/celery.py from __future__ import absolute_import import os from celery import Celery # set the default Django settings module for the 'celery' program. os.environ.setdefault('DJANGO_SETTINGS_MODULE', 'evofrontend.settings') from django.conf import settings app = Celery('evofrontend') # Using a string here means the worker will not have to # pickle the object when using Windows. app.config_from_object('django.conf:settings') app.autodiscover_tasks(lambda: settings.INSTALLED_APPS)

import os BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__))) PROJECT_ROOT = os.path.abspath(os.path.join(os.path.dirname(__file__), os.pardir)) INSTALLED_APPS = ( ... 'djcelery', 'evosched', ) # Celery settings BROKER_URL = 'amqp://guest:guest@localhost//' CELERY_ACCEPT_CONTENT = ['json'] CELERY_TASK_SERIALIZER = 'json' CELERY_RESULT_SERIALIZER = 'json' CELERY_TIMEZONE = 'Europe/London' CELERYD_MAX_TASKS_PER_CHILD = 1 # Each worker is killed after one task, this prevents issues with reactor not being restartable # Use django-celery backend database CELERY_RESULT_BACKEND = 'djcelery.backends.database:DatabaseBackend' # Set periodic task CELERYBEAT_SCHEDULER = "djcelery.schedulers.DatabaseScheduler"

# evofrontend/evosched/tasks.py from __future__ import absolute_import from celery import shared_task from celery.utils.log import get_task_logger logger = get_task_logger(__name__) import os from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings from django.conf import settings as django_settings class CrawlerScript(object): def __init__(self, spider, scrapy_settings): self.crawler = CrawlerProcess(scrapy_settings) self.spider = spider # just a string def run(self, **kwargs): # Pass the kwargs (usually command line args) to the crawler self.crawler.crawl(self.spider, **kwargs) self.crawler.start() @shared_task def scrapingTask(**kwargs): logger.info("Start scrape...") # scrapy.cfg file here pointing to settings... base_dir = django_settings.BASE_DIR os.chdir(os.path.join(base_dir, '..', 'evo-retail/retail')) scrapy_settings = get_project_settings() # Run crawler cs = CrawlerScript('TestSpider', scrapy_settings) cs.run(**kwargs)

# evo-retail/retail/retail/settings.py BOT_NAME = 'retail' import os PROJECT_ROOT = os.path.dirname(os.path.abspath(__file__)) SPIDER_MODULES = ['retail.spiders'] NEWSPIDER_MODULE = 'retail.spiders'

# evo-retail/retail/retail/spiders/Retail_spider.py from scrapy.conf import settings as scrapy_settings from scrapy.spiders import Spider from scrapy.http import Request import sys import django import os import posixpath SCRAPY_BASE_DIR = scrapy_settings['PROJECT_ROOT'] DJANGO_DIR = posixpath.normpath(os.path.join(SCRAPY_BASE_DIR, '../../../', 'evofrontend')) sys.path.insert(0, DJANGO_DIR) os.environ.setdefault("DJANGO_SETTINGS_MODULE", 'evofrontend.settings') django.setup() from evosched.myutils import SCRAPY_XHR_HEADERS class RetailSpider(Spider): name = "TestSpider" def start_requests(self): print SCRAPY_XHR_HEADERS yield Request(url='http://www.google.com', callback=self.parse) def parse(self, response): print response.url return []

/home/lee/Desktop/pyco/evo-scraping-min/evofrontend/../evo-retail/retail /home/lee/Desktop/pyco/evo-scraping-min/venv/lib/python2.7 /home/lee/Desktop/pyco/evo-scraping-min/venv/lib/python2.7/plat-x86_64-linux-gnu /home/lee/Desktop/pyco/evo-scraping-min/venv/lib/python2.7/lib-tk /home/lee/Desktop/pyco/evo-scraping-min/venv/lib/python2.7/lib-old /home/lee/Desktop/pyco/evo-scraping-min/venv/lib/python2.7/lib-dynload /usr/lib/python2.7 /usr/lib/python2.7/plat-x86_64-linux-gnu /usr/lib/python2.7/lib-tk /home/lee/Desktop/pyco/evo-scraping-min/venv/local/lib/python2.7/site-packages /home/lee/Desktop/pyco/evo-scraping-min/evofrontend /home/lee/Desktop/pyco/evo-scraping-min/evo-retail/retail`

1条回答

网友
1楼 · 发布于 2024-06-01 06:46:50

celery守护进程似乎是使用系统的python而不是virtualenv中的python二进制文件来运行的。你需要使用
# Python interpreter from environment. ENV_PYTHON="$CELERYD_CHDIR/env/bin/python"
如前所述，here告诉celeryd在virtualenv中使用python运行。在

相关问题更多 >

编程相关推荐

热门问题

热门文章