有没有办法在不同的formdata上循环使用Scrapy？

2024-10-01 02:38:00 发布

您现在位置：Python中文网/ 问答频道 /正文

7908

网友

男 | 程序猿一只，喜欢编程写python代码。

我在一家物流公司工作，我们努力实现自动化的一部分是跟踪各种货物的状态

我开发了一个网络刮板，它可以很好地处理包含跟踪号的excel表格，只要数字列表小于10，就可以使用这些数字从运营商的网站上刮板跟踪状态。这是因为运营商的网站一次只允许10个跟踪号

然而，在我们计划自动化我们的整个跟踪部门，我们将需要处理的名单远远超过10个数字

我遇到的主要问题是，Scrapy要求我在每次运行Jupyter notebook时都重新启动内核，这防止了我将跟踪号列表分块成10个单独的列表

有没有一种方法可以从内部循环刮泥

到目前为止，我已经成功地将跟踪号列表分为10个列表，并且我已经成功地运行了10个或更少跟踪号的单个列表，它运行得非常好

import scrapy
import pandas as pd
from scrapy.crawler import CrawlerProcess


file = r"C:\Users\amars\Desktop\ODFL Tracking 4_23_2019.xlsx"

xl = pd.ExcelFile(file)

df1 = xl.parse('Data',names=['Ruan ID#','Carrier Pro','Tracking Status'])

prolist = df1['Carrier Pro'].tolist()
prolist = [' ' + str(i) for i in prolist]


def chunk(seq):
    a,b = divmod(len(seq),10)
    listy = []
    i = 0
    last = 0

    while i<a: 
        listy.append(seq[last:(last+10)])
        i = i+1
        last = last + 10

    listy.append(seq[last:(last+b)])

    return listy

if len(prolist) > 10:

    scraped_data = []
    prolist = chunk(prolist)


    class ODFL(scrapy.Spider):
        name = "ODFL"

        for k in prolist:     
            prolist1 = k
            prolist1 = ''.join(prolist1)

                        #start requests method
            def start_requests(self):
                url1 = "https://www.odfl.com/Trace/standard.faces"
                yield scrapy.Request( url = url1 , callback=self.parse )


            def parse(self, response):
                        request = scrapy.FormRequest.from_response( response,
                        formxpath='//*[@id="traceForm:j_idt26"]/fieldset/textarea',                                      
                        formdata={'traceForm:j_idt31': prolist1},
                        callback=self.parse2
                        )

                        yield request

            def parse2(self, response):
                for i in [2,3,5,6,8,9,11,12,14,15]:
                    text1 = response.xpath('/html/body/div[7]/div/form/span[1]/div/div['+str(i)+']/fieldset/div[3]/div[2]/text()').extract_first()
                    scraped_data.append(text1)





process = CrawlerProcess()
process.crawl(ODFL)
process.start()


print(scraped_data)

我期望刮取的数据的输出是13个状态的列表，但是我得到的是[]

Tags： import self div 列表 response 状态 def 数字

1条回答

网友

1楼 · 发布于 2024-10-01 02:38:00

您可以使用def closed(self, reason):钩子

您可以在其中重新启动：

process = CrawlerProcess()
process.crawl(ODFL)
process.start()

有没有办法在不同的formdata上循环使用Scrapy？

相关问题更多 >

编程相关推荐

热门问题

热门文章

有没有办法在不同的formdata上循环使用Scrapy？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >