Python中列的复杂分离

There are 2 unique counts of Hello-HEL-HE-A6123-123A-12T 2 unique counts of Hello-HEL-HE-A6123-123A-50T 1 unique count(s) of Happy-HAP-HA-R650-570A-90T 2 unique counts of Kind-KIN-KI-T490-NET_14T-A.0 2 unique counts of AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A

Type Hello-HEL-HE-A6123-123A-12T_TYPE-v.A Hello-HEL-HE-A6123-123A-12T_TYPE-v.E Hello-HEL-HE-A6123-123A-50T_TYPE-v.C Hello-HEL-HE-A6123-123A-50T_TYPE-v.A Happy-HAP-HA-R650-570A-90T_version-v.A Kind-KIN-KI-T490-NET_14T-A.0 Kind-KIN-KI-T490-NET_14T-A.0 AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A

Type Percent Hello 12T 22.2% Hello 50T 22.2% Happy 90T 11.1% Kind 14T 22.2% AY14.5 6.4T 22.2%

Type Percent Hello 12T 22.2% Hello 50T 22.2% Happy 90T 11.1% Kind 14T 22.2% AY14.5 6.4T 22.2%

2条回答

网友

1楼 · 编辑于 2024-10-04 11:31:28

import pandas as pd

def extract_value(s):
    regex = re.search(r'(^.+?)-.+?(\d+(?:\.\d+)?T)', s)
    if regex:
        first_word = regex.group(1)
        code = regex.group(2)
        return f'{first_word} {code}'
    return s

df = pd.DataFrame([['Hello-HEL-HE-A6123-123A-12T_TYPE-v.A'],
                   ['Hello-HEL-HE-A6123-123A-12T_TYPE-v.E'],
                   ['Hello-HEL-HE-A6123-123A-50T_TYPE-v.C'],
                   ['Hello-HEL-HE-A6123-123A-50T_TYPE-v.A'],
                   ['Happy-HAP-HA-R650-570A-90T_version-v.A'],
                   ['Kind-KIN-KI-T490-NET_14T-A.0'],
                   ['Kind-KIN-KI-T490-NET_14T-A.0'],
                   ['AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A'],
                   ['AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A']])

df.columns = ['Type']
df['Type'] = df['Type'].apply(lambda x: extract_value(x))
df2 = (df['Type'].value_counts(normalize=True)*100).to_frame('%')
print(df2.rename_axis(index='Type').reset_index())

输出：

          Type          %
0  AY14.5 6.4T  22.222222
1     Kind 14T  22.222222
2    Hello 50T  22.222222
3    Hello 12T  22.222222
4    Happy 90T  11.111111

网友

2楼 · 编辑于 2024-10-04 11:31:28

import pandas as pd
df = pd.DataFrame({'Type': {0: 'Hello-HEL-HE-A6123-123A-12T_TYPE-v.A',
  1: 'Hello-HEL-HE-A6123-123A-12T_TYPE-v.E',
  2: 'Hello-HEL-HE-A6123-123A-50T_TYPE-v.C',
  3: 'Hello-HEL-HE-A6123-123A-50T_TYPE-v.A',
  4: 'Happy-HAP-HA-R650-570A-90T_version-v.A',
  5: 'Kind-KIN-KI-T490-NET_14T-A.0',
  6: 'Kind-KIN-KI-T490-NET_14T-A.0'}})  

df.Type = df.Type.str.split('-').str[0] + ' ' + df.Type.str.extract('(\d+T)')
(df.groupby('Type').size() / len(df) * 100).to_frame('Percent').reset_index()

输出

        Type    Percent
0   Hello 12T   28.571429
1   Hello 14T   28.571429
2   Hello 50T   28.571429
3   Hello 90T   14.285714

相关问题更多 >

编程相关推荐

热门问题

热门文章