使用scrapy从值列表抓取网站

import scrapy from scrapy.spider import BaseSpider class MySpider(BaseSpider): name = "npidb" def start_requests(self): urls = [ 'https://npidb.org/npi-lookup/?npi=1366425381', 'https://npidb.org/npi-lookup/?npi=1902873227', ] for url in urls: yield scrapy.Request(url=url, callback=self.parse) def parse(self, response): page = response.url.split("/")[-1] filename = 'npidb-%s.html' % page with open(filename, 'wb') as f: f.write(response.body) self.log('Saved file %s' % filename)

2条回答

网友

1楼 · 编辑于 2024-10-01 13:37:03

假设您有一个来自csv文件的npi列表，那么您可以简单地使用format来更改网站地址，如下所示（我还添加了从csv文件获取列表的部分。如果已经有了，可以省略该部分）：

    def start_requests(self):
        # get npis from csv file
        npis = []
        with open('test.csv', 'r') as f:
            for line in f.readlines():
                l = line.strip()
                npis.append((l))
       # generate the list of address depending on npi
        start_urls = []
        for npi in npis:
            start_urls.append('https://npidb.org/npi-lookup/?npi={}'.format(npi))
        for url in start_urls:
            yield scrapy.Request(url=url, callback=self.parse)

网友

2楼 · 编辑于 2024-10-01 13:37:03

好吧，这取决于csv文件的结构，但是如果它在单独的行中包含npi，您可以做如下操作

def start_requests(self):
    with open('npis.csv') as f:
        for line in f:
            yield scrapy.Request(
                url='https://npidb.org/npi-lookup/?npi={}'.format(line.strip()), 
                callback=self.parse
            )

相关问题更多 >

编程相关推荐

热门问题

热门文章