不支持的URL方案：没有可用的Scrapy处理程序

from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from dirbot.items import Website class DmozSpider(BaseSpider): name = "dmoz" allowed_domains = ["dmoz.org"] f = open("links.csv") start_urls = [url.strip() for url in f.readlines()] f.close() def parse(self, response): hxs = HtmlXPathSelector(response) sites = hxs.select('//ul/li') items = [] for site in sites: item = Website() item['name'] = site.select('a/text()').extract() item['url'] = site.select('a/@href').extract() item['description'] = site.select('text()').extract() items.append(item) return items

http://www.atsu.edu/ http://www.atsu.edu/ http://www.atsu.edu/ http://www.atsu.edu/ http://www.atsu.edu/ http://www.atsu.edu/ http://www.atsu.edu/ http://www.atsu.edu/ http://www.atsu.edu/ http://www.atsu.edu/ http://www.atsu.edu/ http://www.atsu.edu/ http://www.atsu.edu/ http://www.atsu.edu/ http://www.atsu.edu/ http://www.atsu.edu/

1条回答

网友

1楼 · 发布于 2024-10-04 01:37:15

^{} is ^{} urlencoded。您的CSV文件可能有如下行：

"http://example.com/"

使用^{} module读取文件，或
剥离"s

编辑：按要求：

^{pr2}$

编辑2:

import csv
from StringIO import StringIO

c = '"foo"\n"bar"\n"baz"\n'      # Since csv.reader needs a file-like-object,
reader = csv.reader(StringIO(c)) # wrap c into a StringIO.
for line in reader:
    print line[0]

上次编辑：

import csv

with open("links.csv") as f:
    r = csv.reader(f)
    start_urls = [l[0] for l in r]

相关问题更多 >

编程相关推荐

热门问题

热门文章