从服务器链接下载压缩的csv文件并读入pandas

2024-09-28 03:18:44 发布

您现在位置:Python中文网/ 问答频道 /正文

我一直在尝试使用请求库从服务器主机URL下载压缩的csv

当我从同一台服务器下载一个不需要压缩的较小文件时,它在读取CSV时没有问题,但是使用这个文件时,我返回了编码错误

我尝试了多种类型的编码,以csv的形式读入,以zip文件的形式读入,然后打开(此时我得到的错误是文件不是zip文件)

此外,我还尝试使用此处建议的zipfile库:Reading csv zipped files in python

并且还尝试在read_csv中设置编码和压缩

适用于非压缩服务器文件的代码如下:

response = requests.get(url, auth=HTTPBasicAuth(un, pw), stream=True, verify = False)
dfs = pd.read_csv(response.raw)

但用于此文件时返回'utf-8' codec can't decode byte 0xfd in position 0: invalid start byte

我也尝试过:

request = get(url, auth=HTTPBasicAuth(un, pw), stream=True, verify=False)
zip_file = ZipFile(BytesIO(request.content))
files = zip_file.namelist()
with gzip.open(files[0], 'rb') as csvfile:
    csvreader = csv.reader(csvfile)
    for row in csvreader:
        print(row)

返回一个seek属性错误


Tags: 文件csvin服务器authurl编码read
1条回答
网友
1楼 · 发布于 2024-09-28 03:18:44

以下是一种方法:

import pandas as pd
import requests
from requests.auth import HTTPBasicAuth
from zipfile import ZipFile
import io

# Example dataset
url = 'https://www.stats.govt.nz/assets/Uploads/Retail-trade-survey/Retail-trade-survey-September-2020-quarter/Download-data/retail-trade-survey-september-2020-quarter-csv.zip'

response = requests.get(url, auth=HTTPBasicAuth(un, pw), stream=True, verify=False)
with ZipFile(io.BytesIO(response.content)) as myzip:
    with myzip.open(myzip.namelist()[0]) as myfile:
        df = pd.read_csv(myfile)

print(df)

如果要读取多个csv zip文件中的特定csv,请将myzip.namelist()[0]替换为要读取的文件。如果不知道其名称,可以使用print(ZipFile(io.BytesIO(response.content)))检查zip文件内容

相关问题 更多 >

    热门问题