我正在尝试从通过webscraping创建的CSV中删除重复项,并使用以下方法创建CSV:
Greensboro_Parks = pd.DataFrame({"Mobile Home Park":pd.Series(company_names),"Phone Number":pd.Series(company_phone),"Website":pd.Series(website_link_list),"Street":pd.Series(company_street),"City/State":pd.Series(company_locale)})
Greensboro_Parks.to_csv('Greensboro_Mobile_Homes.csv', index = False, header = True)
链接到Github上的CSV(截图文件太大): https://github.com/sdejewski10/Upwork_Mobile_Homes/blob/master/Greensboro_Mobile_Homes.csv
当我打开一个新文件并读取CSV时,它只显示前两列:“移动家庭公园”和“电话号码”。我尝试在Google Sheets中打开CSV文件,它也只显示前两列。我得出结论,这可能与试图读入CSV的Web链接的格式有关
我尝试使用:
data = pd.read_csv('/Users/steve/Documents/Coding/Upwork/Mobile Homes/Greensboro_Mobile_Homes.csv', usecols = ['Mobile Home Park', 'Phone Number', 'Website', 'Street', 'City/State'], dtype= str)
输出:
ValueError: Usecols do not match columns, columns expected but not found: ['Website', 'Street', 'City/State']
我已经审阅了:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html,但无法解释如何格式化要读取的URL。如有任何建议,我们将不胜感激
您使用
header=True
导出了csv文件,因此在使用read\u csv时不需要指定usecols
。通常,如果csv文件中提供了列名,则可以使用header
参数给出列名对应的行号相关问题 更多 >
编程相关推荐