将csv从Kaggle url导入数据框

2024-10-01 19:14:43 发布

您现在位置:Python中文网/ 问答频道 /正文

我想将一个公共数据集从Kaggle(https://www.kaggle.com/unsdsn/world-happiness?select=2017.csv)导入本地jupyter笔记本。我不想在这个过程中使用任何信用卡

我看到了多种解决方案,包括:pd.read_html、pd.read_csv、pd.read_table(pd=pandas)。 我还找到了暗示登录的解决方案

第一组解决方案是我感兴趣的解决方案,尽管我看到它们在其他网站上工作,因为有一个指向原始数据的链接。 我在kaggle界面中到处碰触,但没有找到指向原始数据的直接url

一句话:是否可以使用say pd.read_csv将数据从网站直接输入本地笔记本?如果是,怎么做


Tags: csvhttpscomread原始数据网站www笔记本
2条回答
import kaggle.cli
import sys
import pandas as pd
from pathlib import Path
from zipfile import ZipFile

# download data set
# https://www.kaggle.com/unsdsn/world-happiness?select=2017.csv
dataset = "unsdsn/world-happiness"
sys.argv = [sys.argv[0]] + f"datasets download {dataset}".split(" ")
kaggle.cli.main()

zfile = ZipFile(f"{dataset.split('/')[1]}.zip")

dfs = {f.filename:pd.read_csv(zfile.open(f)) for f in zfile.infolist() }

dfs["2017.csv"]

没有什么神奇的,如果Kaggle需要身份验证来读取其数据,您必须进行身份验证,您的脚本对此无能为力。您可以在网站上进行身份验证,将数据下载到文件中,然后根据需要使用该文件。他们可能会提供一个API来下载数据,但如果他们需要在网站上进行身份验证,几乎可以保证他们会要求它使用API读取数据

相关问题 更多 >

    热门问题