Pandas read_csv()不读取包含web链接的列或之后的任何列

2024-05-18 12:04:38 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试从通过webscraping创建的CSV中删除重复项,并使用以下方法创建CSV:

Greensboro_Parks = pd.DataFrame({"Mobile Home Park":pd.Series(company_names),"Phone Number":pd.Series(company_phone),"Website":pd.Series(website_link_list),"Street":pd.Series(company_street),"City/State":pd.Series(company_locale)})

Greensboro_Parks.to_csv('Greensboro_Mobile_Homes.csv', index = False, header = True)

链接到Github上的CSV(截图文件太大): https://github.com/sdejewski10/Upwork_Mobile_Homes/blob/master/Greensboro_Mobile_Homes.csv

当我打开一个新文件并读取CSV时,它只显示前两列:“移动家庭公园”和“电话号码”。我尝试在Google Sheets中打开CSV文件,它也只显示前两列。我得出结论,这可能与试图读入CSV的Web链接的格式有关

我尝试使用:

data = pd.read_csv('/Users/steve/Documents/Coding/Upwork/Mobile Homes/Greensboro_Mobile_Homes.csv', usecols = ['Mobile Home Park', 'Phone Number', 'Website', 'Street', 'City/State'], dtype= str)

输出: ValueError: Usecols do not match columns, columns expected but not found: ['Website', 'Street', 'City/State']

我已经审阅了:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html,但无法解释如何格式化要读取的URL。如有任何建议,我们将不胜感激


Tags: 文件csvstreetcitypandaswebsitemobilecompany
1条回答
网友
1楼 · 发布于 2024-05-18 12:04:38

您使用header=True导出了csv文件,因此在使用read\u csv时不需要指定usecols。通常,如果csv文件中提供了列名,则可以使用header参数给出列名对应的行号

相关问题 更多 >