困境:
我有一个数据集df,在这里我想在一个特定的列中按复杂的格式进行分离和分组,并显示百分比。我将通过关注前三个“单词”(例如:Hello Hell HE-和字母T-12T来分离类型列中的值
There are 3 unique counts of Hello-HEL-HE-A6123-123A-12T
2 unique counts of Hello-HEL-HE-A6123-123A-50T
1 unique count(s) of Happy-HAP-HA-R650-570A-90T
数据:
Type Value
Hello-HEL-HE-A6123-123A-12T_TYPE-v.A 1,111,111
Hello-HEL-HE-A6123-123A-12T_TYPE-v.B 111,111
Hello-HEL-HE-A6123-123A-12T_TYPE-v.E 2,345,667
Hello-HEL-HE-A6123-123A-50T_TYPE-v.C 222,334
Hello-HEL-HE-A6123-123A-50T_TYPE-v.A 89
Happy-HAP-HA-R650-570A-90T_version-v.A 6
所需输出:
Type Percent
Hello-HEL-HE-12T 50%
Hello-HEL-HE-50T 33%
Happy-HAP-HA-90T 16.6%
正在做:
(建议先在“u”上拆分,然后在“-”上拆分)
df.str.split(pat="_") #separating by hyphen
(df['Type'].value_counts(normalize=True) * 100).to_frame() #groupby
但是,我不知道如何通过以下方式来区分每种类型:Hello Hell HE以及-12T
如有任何建议,我们将不胜感激
你可以这样做:
如果您需要该特定表格,则:
让我们试试
如果要获取下划线之前的所有字段:
如果您希望使用前三个单词,最后一个单词位于下划线之前,则:
在任何一种情况下,您都可以按该键分组:
相关问题 更多 >
编程相关推荐