字符串在一列中基于另一列出现的次数

Text Terms 0 Car's model porche year in data [tech, window, tech] 1 we’re simply making fossil fuel cars [brakes, window, Italy, nice] 2 Year of cars Ferrari to make [Detroit, window, seats, engine] 3 reading the specs of Ferrari file [tech, window, engine, v8, window] 4 likelihood Porche in the car list [from, wheel, tech]

term_cap_dict = {k.lower(): list(map(str.lower, v)) for k, v in term_cap_dict.items()} terms_counter = Counter(chain.from_iterable(df['Terms'])) terms_series = pd.Series(terms_counter) terms_df = pd.DataFrame({'Term': terms_series.index, 'TotalCount': terms_series.values}) df1 = terms_df[terms_df['Term'].isin(term_list)] product_terms = product(term_list, cap_list) df_cp = pd.DataFrame(product_terms, columns=['Terms', 'Capability']) dff = df_cp.set_index('Terms').combine_first(df1.set_index('Term')).reset_index() dff.rename(columns={'index': 'Terms'}, inplace=True)

{'Title': {0: "Car's model porche year in data", 1: 'we’re simply making fossil fuel cars', 2: 'Year of cars Ferrari to make', 3: 'reading the specs of Ferrari file', 4: 'likelihood Porche in the car list'}, 'Terms': {0: ['tech', 'window', 'tech'], 1: ['brakes', 'engine', 'Italy', 'nice'], 2: ['Detroit', 'window', 'seats', 'engine'], 3: ['tech', 'window', 'engine', 'v8', 'window'], 4: ['from', 'wheel', 'tech']}}

1条回答

网友

1楼 · 发布于 2024-09-28 20:18:04

更新：

df1 = df.explode(column='Terms')

regcap = '|'.join(cap_list)
df1['Cap'] = df1['Text'].str.extract(f'({regcap})')
filter_df =pd.concat([pd.DataFrame({'Cap':v, 'Terms':k}) for v, k in term_cap_dict.items()])
filter_df = filter_df.apply(lambda x: x.str.lower())

df1 = df1.apply(lambda x: x.str.lower())
df1_filt = df1.merge(filter_df)
idx = pd.MultiIndex.from_product([term_list, list(map(str.lower, cap_list))], names=['Term','Cap'])
df_out = df1_filt[df1_filt['Terms'].isin(term_list)].groupby(['Terms','Cap']).count()\
                                       .rename(columns= {'Text':'Count'})\
                                       .reindex(idx, fill_value=0).reset_index()
print(df_out)

输出：

     Term      Cap  Count
0    tech  ferrari      0
1    tech   porche      2
2  engine  ferrari      2
3  engine   porche      0
4  window  ferrari      3
5  window   porche      0

IIUC，试试这个：

df1 = df.explode(column='Terms')

regcap = '|'.join(cap_list)
df1['Cap'] = df1['Text'].str.extract(f'({regcap})')

idx = pd.MultiIndex.from_product([term_list, cap_list], names=['Term','Cap'])
df_out = df1[df1['Terms'].isin(term_list)].groupby(['Terms','Cap']).count()\
                                          .rename(columns= {'Text':'Count'})\
                                          .reindex(idx, fill_value=0).reset_index()
print(df_out)

输出：

     Term      Cap  Count
0    tech  Ferrari      1
1    tech   porche      2
2  engine  Ferrari      2
3  engine   porche      0
4  window  Ferrari      3
5  window   porche      1

相关问题更多 >

编程相关推荐

热门问题

热门文章