我在网上搜索这类问题,但它们有些不同,不能帮助我得出结论。我有一个有两列的数据框,“区域”和“地址”。在1000次观测中,有322个独特的区域。你知道吗
我的目标是实际存储与一个区域对应的所有地址词。我试过使用dict等,但后来太复杂了。熊猫身上一定有简单的东西。
以下是我的数据:
Sr.no Area Address
1 vasanth nagar cant railway station
2 mahadevapura akme ballet d1001 outer ring road
3 whitefield villa no 106/107 palm medose
4 whitefield fortune hotel,room 4112 opposite sap labs,
5 vasanth nagar station cantonment
我想要的是把怀特菲尔德的所有词组合起来,比如“别墅、不、棕榈、财富、酒店、sap实验室……等等”。我更希望它是一个列表格式,但由于我现在没有标题,任何类型的分组都可以,分配属于每个唯一区域的所有地址到一起。请注意,我有成千上万的观察结果,因此不应硬编码。
最后,我自己做了什么??这里是一切:
area_ref = data['Area'].sort_index()
area_ref2=set(area_ref)
from collections import defaultdict
grouped = defaultdict(list)
for row in data:
grouped[row['Area']].append(row['Address'])
#dint work . error that index should be int , not string.
subset = data[['Area','Address']]
tuples1 = [tuple(x) for x in subset.values]
from collections import defaultdict
res = defaultdict(list)
for v, k in tuples1: res[k].append(v)
di2=[{'type':k, 'items':v} for k,v in res.items()]
#this last one gave me a really bad dictionary.
这应该不复杂。有更好的方法。可能是什么?你知道吗
read_table
将数据片段加载到数据帧中。 因为已经有了data
作为数据帧,所以当然没有 我需要这条线。你知道吗data
按Area
分组,然后调用 每个组的collect_to_set
函数grp
。你知道吗collect_to_set
中,grp
是data
(带有all)的子数据帧 具有相同Area
)的行。它返回所有单词的set
grp['Address']
的行。你知道吗result
是Series
。你知道吗result.to_dict()
。你知道吗把你的条目。作为如下所示。并运行排序方法。你知道吗
相关问题 更多 >
编程相关推荐