如何复制和修改Pandas数据帧中的行？

'Value' ID_1 ID_2 0 11122222 ABC42123 33333 1 21219299 YOF21233 88821 2 00022011 ERE00091 23124 3 75643311;21233332 ROB21288 99421 4 12412421 POW94277 12231;33221 5 54221721 IRS21231;YOU28137 13123

def delete_dup(df,column): for a in column: location = df.loc[df.duplicated(subset= column, keep=False)] for x in location: semicolon = df.loc[df[column].str.contains(';', regex=True)] duplicate = semicolon.duplicated(subset= column, keep='first') tiny_df = semicolon.loc[duplicate] split_up = tiny_df[column].str.split(';') return pd.concat([df, split_up]) 'Value' ID_1 ID_2 0 11122222 ABC42123 33333 NaN 21219299 YOF21233 88821 NaN 00022011 ERE00091 23124 NaN 75643311;21233332 ROB21288 99421 NaN 12412421 POW94277 12231;33221 NaN 54221721 IRS21231;YOU28137 13123 NaN 75643311;21233332 ROB21288 99421 NaN 54221721 IRS21231;YOU28137 13123 NaN 12412421 POW94277 12231;33221 NaN NaN NaN NaN [75643311, 21233332]

2条回答

网友

1楼 · 编辑于 2024-10-08 18:24:07

也许不是最优雅的方式，但这种只是解决了问题：

第1步

我们掌握的数据：

df
    'Value'     ID_1        ID_2
0   11122222    ABC42123    33333
1   21219299    YOF21233    88821
2   00022011    ERE00091    23124
3   75643311;21233332   ROB21288    99421
4   12412421    POW94277    12231;33221
5   54221721    IRS21231;YOU28137   13123

第2步

让我们把行为不端的列分开

^{pr2}$

第3步

让我们将复制与原始数据合并到单个数据帧中：

df2 = df[pd.notna(df["'Value'_Dupe"])][["'Value'_Dupe","ID_1","ID_2"]]
df2.columns = ["'Value'","ID_1","ID_2"]

df3 = df[pd.notna(df["ID_1_Dupe"])][["'Value'","ID_1_Dupe","ID_2"]]
df3.columns = ["'Value'","ID_1","ID_2"]

df4 = df[pd.notna(df["ID_2_Dupe"])][["'Value'","ID_1","ID_2_Dupe"]]
df4.columns = ["'Value'","ID_1","ID_2"]

df5 = df[["'Value'","ID_1","ID_2"]]

df_result = pd.concat([df5,df2,df3,df4])
df_result



    'Value'     ID_1        ID_2
0   11122222    ABC42123    33333
1   21219299    YOF21233    88821
2   00022011    ERE00091    23124
3   75643311    ROB21288    99421
4   12412421    POW94277    12231
5   54221721    IRS21231    13123
3   21233332    ROB21288    99421
5   54221721    YOU28137    13123
4   12412421    POW94277    33221

如果这能解决你的问题，请告诉我。在

网友

2楼 · 编辑于 2024-10-08 18:24:07

解决方案有两个部分。第一种方法是确定哪些行有分号，第二种方法是创建额外的行并将它们连接起来。第一部分在contains_sc中完成，第二部分在检测到带有分号的行时迭代行并运行函数create_additional_rows。在

希望这有帮助。在

In[6]: import pandas as pd

In[7]: df = pd.DataFrame(
  [['1', '2;3', '4', '5'],
  ['A', 'B', 'C', 'D;E'],
  ['T', 'U', 'V;W', 'X']],
  index=['Val', 'ID1', 'ID2']
).T

In[8]: df

Out[8]: 
   Val  ID1  ID2
0    1    A    T
1  2;3    B    U
2    4    C  V;W
3    5  D;E    X

In[9]: contains_sc = df.apply(lambda x: x.str.contains(';'))
In[10]: contains_sc
Out[10]: 
     Val    ID1    ID2
0  False  False  False
1   True  False  False
2  False  False   True
3  False   True  False

In[11]: 
def create_additional_rows(data_row, csc_row, split_char=';'):
    """Given a duplicated row return additional de-duplicated rows."""
    if len(csc_row[csc_row].dropna()) > 1:
      raise ValueError('Expect only a single column with a semicolon')
    col_with_sc = csc_row[csc_row].dropna().index[0]
    retval = []
    for item in data_row.loc[col_with_sc].split(split_char):
      copied = data_row.copy()
      copied.loc[col_with_sc] = item
      retval.append(copied)
    return retval

In[11]: 
  new_rows = []
  for (idx, data_row), (_, csc_row) in zip(df.iterrows(), contains_sc.iterrows()):
    if True not in csc_row.values:
      new_rows.append(data_row)
      continue
    new_rows.extend(create_additional_rows(data_row, csc_row))

  final = pd.concat(new_rows, axis='columns').T.reset_index(drop=True)

In[13]: final
Out[13]: 
  Val ID1 ID2
0   1   A   T
1   2   B   U
2   3   B   U
3   4   C   V
4   4   C   W
5   5   D   X
6   5   E   X

相关问题更多 >

编程相关推荐

热门问题

热门文章