在类似Python的Excel VLOOKUP中使用部分字符串匹配进行合并

sales_df = pd.DataFrame({'CompanyName': ['EDF', 'EDF Business', 'L'Oreal France', 'L'oreal Produits De Luxe Belgilux - Be'], marketing_df = pd.DataFrame({'ContactName': ['Eddie', 'Antoine', 'Tracy', 'Iria'], 'Email': ['eddie@edf.fr', 'antoine.g@edf.fr', 'tracy@us.loreal.com', 'iria@loreal.com'], 'CompanyName': ['EDF', 'EDF', 'L'Oréal', 'L’Oreal Produit Luxe France''], 'Industry': ['Energy', 'Energy', 'CPG', 'CPG']})

ContactName Email CompanyName Industry 0 Eddie eddie@edf.fr edf Energy 1 Antoine antoine.g@edf.fr edf Energy 2 Tracy tracy@us.loreal.com loreal... CPG 3 Iria iria@loreal.com loreal... Energy

# import Pandas import pandas as pd # Convert spreadsheets into data frames marketing_df = pd.read_csv('/Users/me/Desktop/Project Data/Country_MKTG_data.csv') sales_df = pd.read_csv('/Users/me/Desktop/Project Data/Country_Sales_data.csv') # Display all rows & drop null values in company name columns pd.set_option('display.max_rows', None) marketing_df['CompanyMKTG'] = marketing_df['CompanyMKTG'].dropna() sales_df['CompanySales'] = sales_df['CompanySales'].dropna() # Make all company names lower case sales_df['CompanySales'] = sales_df['CompanySales'].str.lower() marketing_df['CompanyMKTG'] = marketing_df['CompanyMKTG'].str.lower() # Eliminate unwanted characters & words bad_characters = ['-', ',', '.', '?', '~', '/', 'france', 'ltd', 'uk', 'sa', 'sas', 'the', 'spain', 'japan', 'usa', 'la', 'le', 'de'] for element in bad_characters: marketing_df['CompanyMKTG'] = marketing_df['CompanyMKTG'].str.replace(element, '', case=False) sales_df['CompanySales'] = sales_df['CompanySales'].str.replace(element, '', case=False) # Clean white space marketing_df['CompanyMKTG'] = marketing_df['CompanyMKTG'].str.rstrip().str.replace(' ', '') sales_df['CompanySales'] = sales_df['CompanySales'].str.rstrip().str.replace(' ', '')

# Replace company names in MKTG data set real_comp = sales_df['CompanySales'].tolist() for i in marketing_df: if i['CompanyMKTG'].isin(real_comp): if i['CompanyMKTG'].issubstring(real_comp[real_comp.get_index(i['CompanySales'])]): if real_comp[real_comp.get_index(i['CompanySales'])].issubstring((i['CompanyMKTG'])): marketing_df['CompanyMKTG'].replace(real_comp, inplace=True) i['CompanySales'] = real_comp[real_comp.get_index(i['CompanyMKTG'])]

def get_match(x): return marketing_df.loc[marketing_df['CompanyMKTG'].str.contains(x, na=False), 'EmailAddress'].iloc[0] sales_df['Match'] = sales_df['CompanySales'].apply(get_match) print(sales_df)

1条回答

网友

1楼 · 发布于 2024-09-30 20:17:21

出现错误的原因是，当使用for循环在DF中交互时，会得到字符串格式的列名称，这就是i['CompanyMKTG']抛出错误的原因

为了避免此错误，可以使用iterrows方法对行进行迭代

for index , row in marketing_df.iterrows()

因为您希望通过比较销售数据集公司名称从营销数据集中提取数据。在完成所有清洁过程后，您可以使用下面的方法

marketing_df[marketing_df['CompanyMKTG'].isin(sales_df)]

请注意，对于数据帧或序列，没有issubstring方法。请参阅文件>；https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isin.html

在IF语句中使用isin（）方法也会引发异常/错误，因为o/p是不明确的。如果您想使用多个条件，您可以使用下面的验证条件并打印结果营销数据集

r=[]
for i, row in marketing_df.iterrows():
    if row['CompanyMKTG'] in str(sales_df['CompanyMKTG']):
        r.append(row['CompanyMKTG'])
marketing_df[marketing_df['CompanyMKTG'].isin(r)]

相关问题更多 >

编程相关推荐

热门问题

热门文章