我遵循Python for Data Analysis一书。它告诉我从http://www.fec.gov/disclosurep/PDownload.do获取ALL文件并用pandas加载它:
import pandas as pd
fec = pd.read_csv('P00000001-ALL.csv')
但自从这本书写完之后,实际的文件已经改变了。旧文件(这里提供https://github.com/pydata/pydata-book/blob/master/ch09/P00000001-ALL.csv)可以很好地加载
^{pr2}$但新的列加载错误,因为列似乎已移位(第一列值被删除)
^{3}$实际行是
C00579458,"P60008059","Bush, Jeb","EASTON, AMY KELLY MRS.","KEY BISCAYNE","FL","331491716","HOMEMAKER","HOMEMAKER",2700,26-JUN-15,"","","","SA17A","1024106","SA17.114991","P2016",
所以C00579458在某个地方丢失了。在
标题看起来像这样。 cmte_id,cand_id,cand峎nm,contbr峎city,contbr峎st,contbr_zip,contbr_employer,contbr_职业,contb_receipt_amt,contb_receipt_dt,receipt_desc,备忘光盘,备忘录文本,表格tp,文件编号,事务id,选举
正如另一个答案已经暗示的那样,您的csv格式不正确,行尾有一个
comma
。因此,这导致pandas将第一列视为索引列。在要解决这个问题,可以将} 函数。示例-
index_col=False
参数传递给^{这在the documentations-
(重点是我的)
原始数据中每行的末尾都有一个额外的逗号。在
如果有两个逗号,每行将移动2列。在
相关问题 更多 >
编程相关推荐