按列表顺序将两个数据帧列与列表合并

def parse_merge(df, col1, col2, splitter, new_col, list_to_exclude): orig_order = pd.Series(list(df.index)).rename('index') col1_df = pd.concat([orig_order, df[col1], df[col1].str.split(splitter, expand=True)], axis = 1) col2_df = pd.concat([orig_order, df[col2], df[col2].str.split(splitter, expand=True)], axis = 1) col1_melt = pd.melt(col1_df, id_vars=['index', col1], var_name='count') col2_melt = pd.melt(col2_df, id_vars=['index', col2], var_name='count') col2_melt['value'] = '(' + col2_melt['value'].astype(str) + ')' col2_melt = col2_melt.rename(columns={'value':'value2'}) melted_merge = pd.concat([col1_melt, col2_melt['value2']], axis = 1 ) if len(list_to_exclude) > 0: list_map = map(re.escape, list_to_exclude) melted_merge.ix[melted_merge['value2'].str.contains('|'.join(list_map)), ['value', 'value2']] = '' melted_merge[new_col] = melted_merge['value'] + " " + melted_merge['value2']

3条回答

网友

1楼 · 编辑于 2024-10-04 05:31:16

下面是一个使用pd.DataFrame.apply和一些python优秀的内置功能的简明解决方案：

def combine_names(row):

    pairs = list(zip(row[0].split('|'), row[1].split('|')))
    return '\n'.join([' '.join(p) for p in pairs if p[1] != 'Simth'])

df['Full Name'] = df.apply(combine_names, axis=1)

网友

2楼 · 编辑于 2024-10-04 05:31:16

我真的很喜欢@AlexG's solution-请用它。你知道吗

下面是我试图创建一个创造性的一行解决方案-这是绝对反常的，所以不应该使用它-它只是为了好玩：

In [78]: df
Out[78]:
          First Names           Last Names
0       Jim|James|Tim  Simth|Jacobs|Turner
1         Mickey|Mini          Mouse|Mouse
2  Mike|Billy|Natasha   Mills|McGill|Tsaka

In [79]: df['Full Names'] = \
    ...: (df.stack()
    ...:    .str.split(r'\|', expand=True)
    ...:    .unstack(level=1)
    ...:    .groupby(level=0, axis=1)
    ...:    .apply(lambda x: x.add(' ').sum(axis=1).str.strip())
    ...:    .replace([r'\w+\s+Simth'], [np.nan], regex=True)
    ...:    .apply(lambda x: x.dropna().str.cat(sep='\n'), axis=1)
    ...: )
    ...:

In [80]: df
Out[80]:
          First Names           Last Names                               Full Names
0       Jim|James|Tim  Simth|Jacobs|Turner                 James Jacobs\nTim Turner
1         Mickey|Mini          Mouse|Mouse                 Mickey Mouse\nMini Mouse
2  Mike|Billy|Natasha   Mills|McGill|Tsaka  Mike Mills\nBilly McGill\nNatasha Tsaka

网友

3楼 · 编辑于 2024-10-04 05:31:16

我有很多理解力

l = df.values.tolist()

['|'.join(n)
 for n in [[' '.join(z)
 for z in zip(*[s.split('|')
 for s in r]) if z[1] != 'Smith']
 for r in l]]

['James Jacobs|Tim Turner',
 'Mickey Mouse|Mini Mouse',
 'Mike Mills|Billy McGill|Natasha Tsaka']

l = df.values.tolist()

df['Full Names'] = [
     '|'.join(n)
     for n in [[' '.join(z)
     for z in zip(*[s.split('|')
     for s in r]) if z[1] != 'Smith']
     for r in l]]

df

撇开文字播放不谈，这对示例数据来说相当快

详细解释

l

[['Jim|James|Tim', 'Simth|Jacobs|Turner'],
 ['Mickey|Mini', 'Mouse|Mouse'],
 ['Mike|Billy|Natasha', 'Mills|McGill|Tsaka']]

l是一个列表列表。我将广泛使用列表理解和iterables。你知道吗
每个子列表由2个字符串组成，我将把它们拆分并压缩在一起。你知道吗
拆分的结果将是一个由(first, last)名称组成的元组“列表”。我将使用if z[1] != 'Smith'过滤掉史密斯夫妇。
- 顺便说一句，在这行你可以用z[1] not in list_of_names
然后我将使用' '.join（这实际上是一个函数）将每个元组组合成first last
然后我将使用另一个'|'.join来组合first last到first1 last1|first2 last2的子列表。。。以此类推

这之所以更快，是因为理解在很大程度上得到了优化。其他的解决方案是使用apply，这是一种通用的循环结构，只能在特殊情况下利用快速循环（如果有人知道更多，请纠正我的错误）。使用lambda绝对不是那种情况。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章