我在一个数据帧中有多个列。你知道吗
有些是重复的,有些是完全空的。你知道吗
我需要删除每列中的重复项。你知道吗
dict_A = {'Firm_A': ['A', 'A', 'B','C'],'Firm_B': [], 'Firm_C': ['B', 'A', 'B','D'], 'Firm_D': ['C', 'C', 'A','D']}
df = pd.DataFrame.from_dict(dict_A, orient = 'index')
df = df.T
df
Firm_A Firm_B Firm_C Firm_D
0 A None C C
1 A None A C
2 B None B A
3 C None D A
期望输出:
Firm_A Firm_B Firm_C Firm_D
0 A None C C
1 B None A A
2 C None B None
3 None None D None
到目前为止我已经试过了删除重复项(). 你知道吗
我有大约3000列,每列有大约100个值。你知道吗
你用的是错误的数据结构。如果数据帧行中的条目彼此不相关,则df可能不是适用的数据结构。相反,对字典值进行重复数据消除:
之后,如果碰巧有一些奇怪的数据帧列应用程序,可以从那里构建df。你知道吗
使用
stack
将df
转换为series
。接下来,groupby在level=1
上并调用unique
来构造每列的唯一值列表。最后,从unique
构造一个新的df
并转置这里有一种使用
duplicated
的方法如果您想加快速度,也可以检查justify
相关问题 更多 >
编程相关推荐