我用FourSquare的API制作了一些数据,列出了东伦敦不同地区附近的公园。它在数据帧中,df。你知道吗
Location,Parks,Borough
Aldborough Hatch,Fairlop Waters Country Park,Redbridge
Ardleigh Green,Haynes Park,Havering
Bethnal Green,"Haggerston Park, Weavers Fields",Tower Hamlets
Bromley-by-Bow,"Rounton Park, Grove Hall Park",Tower Hamlets
Cambridge Heath,"Haggerston Park, London Fields",Tower Hamlets
Dalston,"Haggerston Park, London Fields",Hackney
使用df = pd.read_clipboard(sep=',')
导入数据
我想做的是按行政区列分组,并计算该行政区内不同的公园,例如“Tower Hamlets”=5,“Hackney”=2。为此,我将创建一个新的数据框,它只列出数据框中每个自治区的公园总数。你知道吗
我知道我能做到:
df.groupby(['Borough', 'Parks']).size()
但我需要用分隔符“,”来划分公园,这样它们就可以被看作是一个自治区的独特实体。你知道吗
你有什么建议?你知道吗
谢谢!你知道吗
数据科学的第一条规则是将数据整理成有用的格式。
重新格式化
DataFrame
以使其可用:现在,数据帧采用了更易于分析的适当格式
DataFrame
是一种有用的格式,可以很容易地提取更多的细节。你知道吗绘图
如果您使用的是Pandas 0.25或更高版本,请考虑Trenton_M
他的回答为创建更有用的数据集提供了一个很好的建议。你知道吗
IIUC公司:
相似
相关问题 更多 >
编程相关推荐