从datafram创建频率字典

2024-10-06 12:29:42 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个像这样的大数据集,我正试图制作一个数据帧字典,用其他列的频率来组织“犯罪”一列。在

列车数据

    23  Wednesday  BAYVIEW  CENTRAL  INGLESIDE  NORTHERN  PARK  RICHMOND  crime
0   1          1        0        0          0         1     0         0      3
1   1          1        0        0          0         1     0         0      1
2   1          1        0        0          0         1     0         0      1
3   1          1        0        0          0         1     0         0      0
4   1          1        0        0          0         0     1         0      0
5   1          1        0        0          1         0     0         0      0
6   1          1        0        0          1         0     0         0      2
7   1          1        1        0          0         0     0         0      2
8   1          1        0        0          0         0     0         1      0
9   1          1        0        1          0         0     0         0      0

所以我决定首先用“犯罪”列按数据帧分组:

^{pr2}$

然后我试着用字典把它们组织起来,但我做不到,我也尝试过用某种方式迭代,但是数据帧出了问题。在

结果应该是这样的:

^{3}$

Tags: 数据park字典方式频率central列车crime
2条回答

你可以用

d = train_data.to_dict(orient='index')

有关更多选项,请参见http://pandas.pydata.org/pandas-docs/version/0.17.1/generated/pandas.DataFrame.to_dict.html。在

如果你使用的是pandas 0.17.0或更高版本,如MaxNoe所说:

train_data.groupby('crime').sum().to_dict(orient='index')

否则:

^{pr2}$

相关问题 更多 >