使用Shopify scraper接收urllib错误

2024-10-01 15:32:22 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在构建这个Shopify刮板来刮板商店属性,如地址、电话、电子邮件等,我收到一个urllib.error.HTTPError:HTTP error 404:notfound。CSV是使用标题创建的,但不会删除任何信息。为什么地址没有被删掉

import csv
import json
from urllib.request import urlopen
import sys

base_url = sys.argv[1]
url = base_url + '/shopprops.json'

def get_page(page):
    data = urlopen(url + '?page={}'.format(page)).read()
    shopprops = json.loads(data)['shopprops']
    return shopprops
  
with open('shopprops.csv', 'w', newline='') as f:
    writer = csv.writer(f)
    writer.writerow(['Address1'])
    page = 1
    shop = get_page(page)
    while shopprops:
        for shop in shopprops:
            address1 = shop['address1']
            row = [address1]
            writer.writerow(row)
        page += 1
        shopprops = get_page(page)

问题似乎出在:

data = urlopen(url + '?page={}'.format(page)).read()

以及:

shopprops = get_page(page)

Tags: csvimport刮板jsonurldataget地址
1条回答
网友
1楼 · 发布于 2024-10-01 15:32:22

那篇文章很糟糕,有几个原因,这可能会帮助你继续前进。首先,你不能像那个家伙所说的那样去刮一家商店,仅仅是为了买产品。json。您最多只能获得少量产品的有效负载,而不会暴露任何有趣的信息。Shopify对此很明智

所以,在你在你的刮板上投入太多精力之前,你可能想重新思考你在做什么,相反,也许可以尝试一种不同的方法

相关问题 更多 >

    热门问题