将列替换为基于datafram中频率计数的最大字符串长度

k = df['Newname'].to_list() j = list(set(k)) for row in df.iterrows(): print(row) if row==j[0]: df.at[row.Index, 'Newname'] = df['Newname'].value_counts().argmax() elif row==j[1]: df.at[row.Index, 'Newname'] = df['Newname'].value_counts().argmax()

2条回答

网友

1楼 · 编辑于 2024-09-28 01:32:55

希望有帮助！你知道吗

#Get name lengths
df['name_len'] = df['name'].apply(lambda x : len(x))

#Get variables
max_freq = df['freq'].max()
max_len = df['name_len'].max()

#Apply Filters
filter1 = df[df['name_len'] == max_len].reset_index(drop=True)
filter2 = filter1[filter1['freq'] == max_freq].reset_index(drop=True)

#get the target_name
target_name = np.array(filter2.name[0].capitalize())
new_names = target_name.repeat(df.shape[0])

#create new_names
df['new_name'] = new_names
df = df.drop(['name_len', 'name'], axis = 1)

注：当你有相同的频率和名称长度时，你必须给名称的频率或长度赋予权重。你知道吗

Before

After

网友

2楼 · 编辑于 2024-09-28 01:32:55

df2 = pd.DataFrame(columns=['new_name', 'freq'])
for name,group in df.groupby(['freq']):
    #Get length of the names and max len
    group['name_len'] = group['name'].apply(lambda x : len(x))
    max_len = group['name_len'].max()

    #Apply Filters
    filter1 = group[group['name_len'] == max_len].reset_index(drop=True)

    #get the target_name
    target_name = np.array(filter1.name[0].capitalize())
    new_names = target_name.repeat(group.shape[0])

    #create new_names
    group['new_name'] = new_names
    group = group.drop(['name_len', 'name'], axis = 1)
    print(group)
    df2 = pd.concat([df2, group]).sort_index(axis=0)

相关问题更多 >

编程相关推荐

热门问题

热门文章

将列替换为基于datafram中频率计数的最大字符串长度

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >