以Scrapy中的start_urls依次读取文本文件链接

2条回答

网友

1楼 · 编辑于 2024-09-29 23:15:50

您正在遍历文本文件的行并提取变量start_url和{}，这两个变量工作得很好。但是使用这些变量的代码部分在循环之外。在

另外，我假设您想为每一行创建一个LinkSpider实例？然后您需要执行以下操作（更好的做法是编写一个以两个变量作为参数的构造函数）：

class LinkSpider(scrapy.Spider):
    name = "link"
    allowed_domains = ["link.com"]
    start_urls = None

f = open('links.txt', 'r')
listoflinks = [line.strip().split(' | ') for line in f.readlines()]
for pair in listoflinks:
    start_url = [pair[0]]
    name = pair[1]

    ls = LinkSpider()
    ls.name = name
    ls.start_urls = start_url

    # do something with ls...

f.close()

一点旁注，而不是：

^{pr2}$

你可以写下：

for start_url, name in listoflinks:
    ...

网友

2楼 · 编辑于 2024-09-29 23:15:50

scrapy.Spider.__init__同时接受name和{}。在

class LinkSpider(scrapy.Spider):
    allowed_domains = ["link.com"]

with open('links.txt', 'r') as links:
    for link in links:
        url, name = link.strip().split('|')
        spider = LinkSpider(name, start_urls=[url.strip()])
        print 'name: {}, start urls: {}'.format(spider.name, spider.start_urls)

输出：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章

以Scrapy中的start_urls依次读取文本文件链接

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >