将多个csv文件从网站带入谷歌云平台/存储的最佳方式

import requests import shutil filenames = [ # probably could loop through these .._YYYY-MM 'https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2019-01.csv', 'https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2019-02.csv', 'https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2019-03.csv', 'https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2019-04.csv', 'https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2019-05.csv', 'https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2019-06.csv', 'https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2019-07.csv', 'https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2019-08.csv', 'https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2019-09.csv', 'https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2019-10.csv', 'https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2019-11.csv', 'https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2019-12.csv', ] for x in filenames: r = requests.get(x, stream = True) if r.status_code == 200: with open(x.split('_')[-1], 'wb') as f: r.raw.decode_content = True shutil.copyfileobj(r.raw, f)

1条回答

网友

1楼 · 发布于 2024-06-28 11:09:22

对于一次性将这些文件加载到云存储中，我建议创建一个计算引擎VM，然后下载，然后使用gsutil上传。计算引擎虚拟机具有高带宽连接，应该能够顺利下载/上传10GB

创建一个计算引擎VM，并在其中使用SSH。您也可以使用Cloud Shell，但它将您的存储空间限制为5GB，因此您需要将下载/上传分块
下载文件。下面是一个使用curl的示例，但是您也可以使用wget或在Python中使用requests库来实现

curl "https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2019-[01-12].csv" -o "tripdata_2019-#1.csv"

与gsutil一起上载

gsutil cp tripdata-2019-{01..12}.csv gs://your-bucket

另一个选择是Storage Transfer Service。我还没有亲自使用过该服务，但它似乎适合这个用例

相关问题更多 >

编程相关推荐

热门问题

热门文章