如何拆分数据帧单元中的数据并在拆分时执行分组？

Location,Parks,Borough Aldborough Hatch,Fairlop Waters Country Park,Redbridge Ardleigh Green,Haynes Park,Havering Bethnal Green,"Haggerston Park, Weavers Fields",Tower Hamlets Bromley-by-Bow,"Rounton Park, Grove Hall Park",Tower Hamlets Cambridge Heath,"Haggerston Park, London Fields",Tower Hamlets Dalston,"Haggerston Park, London Fields",Hackney

2条回答

网友

1楼 · 编辑于 2024-05-19 18:49:06

数据科学的第一条规则是将数据整理成有用的格式。

重新格式化`DataFrame`以使其可用：

df.Parks = df.Parks.str.split(',\s*') # per user piRSquared
df = df.explode('Parks') # pandas v 0.25

现在，数据帧采用了更易于分析的适当格式

df.groupby('Borough').Parks.nunique()

Borough
Hackney          2
Havering         1
Redbridge        1
Tower Hamlets    5

这是三行代码，但是现在DataFrame是一种有用的格式，可以很容易地提取更多的细节。你知道吗

绘图

df.groupby(['Borough']).Parks.nunique().plot(kind='bar', title='Unique Parks Counts by Borough')

网友

2楼 · 编辑于 2024-05-19 18:49:06

如果您使用的是Pandas 0.25或更高版本，请考虑Trenton_M
他的回答为创建更有用的数据集提供了一个很好的建议。你知道吗

IIUC公司：

df.groupby('Borough').Parks.apply(
    lambda s: len(set(', '.join(s).split(', ')))
)

Borough
Hackney          2
Havering         1
Redbridge        1
Tower Hamlets    5
Name: Parks, dtype: int64

相似

df.Parks.str.split(', ').groupby(df.Borough).apply(lambda s: len(set().union(*s)))

Borough
Hackney          2
Havering         1
Redbridge        1
Tower Hamlets    5
Name: Parks, dtype: int64

重新格式化`DataFrame`以使其可用：

现在，数据帧采用了更易于分析的适当格式

绘图

相关问题更多 >

编程相关推荐

热门问题

热门文章