Python模糊字符串匹配类型错误：应为字符串或byteslike对象

import pandas as pd from fuzzywuzzy import fuzz from fuzzywuzzy import process prospectus_data_file = 'file1.xlsx' filings_data_file = 'file2.xlsx' prospectus = pd.read_excel(prospectus_data_file) filings = pd.read_excel(filings_data_file) #all_data_st = pd.merge(prospectus, filings, on='NamePeriod') filings['key']=filings.NamePeriod.apply(lambda x : [process.extract(x, prospectus.NamePeriod, limit=1)][0][0][0]) all_data_st = filings.merge(prospectus,left_on='key',right_on='NamePeriod') all_data_st.to_excel('merged_file_fuzzy.xlsx')

print(filings[['Name', 'Period','NamePeriod']]) print(prospectus[['prospectus_issuer_name', 'fyear','NamePeriod']]) print(filings[['Name', 'Period','NamePeriod']]) print(prospectus[['prospectus_issuer_name', 'fyear','NamePeriod']]) Name ... NamePeriod 0 NaN ... NaN 1 NAM TAI PROPERTY INC. ... NAM TAI PROPERTY INC. 2019 2 NAM TAI PROPERTY INC. ... NAM TAI PROPERTY INC. 2018 3 NAM TAI PROPERTY INC. ... NAM TAI PROPERTY INC. 2017 4 NAM TAI PROPERTY INC. ... NAM TAI PROPERTY INC. 2016 ... ... ... 15922 Huitao Technology Co., Ltd. ... NaN 15923 Leaping Group Co., Ltd. ... NaN 15924 PUYI, INC. ... NaN 15925 Puhui Wealth Investment Management Co., Ltd. ... NaN 15926 Tidal Royalty Corp. ... NaN [15927 rows x 3 columns] prospectus_issuer_name fyear NamePeriod 0 ALCAN ALUM LTD 1990 ALCAN ALUM LTD 1990 1 ALCAN ALUM LTD 1991 ALCAN ALUM LTD 1991 2 ALCAN ALUM LTD 1992 ALCAN ALUM LTD 1992 3 AMOCO CDA PETE CO 1992 AMOCO CDA PETE CO 1992 4 AMOCO CDA PETE CO 1992 AMOCO CDA PETE CO 1992 ... ... ... 1798 KOREA GAS CORP 2016 KOREA GAS CORP 2016 1799 KOREA GAS CORP 2016 KOREA GAS CORP 2016 1800 PETROLEOS MEXICANOS 2016 PETROLEOS MEXICANOS 2016 1801 PETROLEOS MEXICANOS 2016 PETROLEOS MEXICANOS 2016 1802 BOC AVIATION PTE LTD GLOBAL 2016 BOC AVIATION PTE LTD GLOBAL 2016 [1803 rows x 3 columns]

import pandas as pd from rapidfuzz import process, utils prospectus_data_file = 'file1.xlsx' filings_data_file = 'file2.xlsx' prospectus = pd.read_excel(prospectus_data_file) filings = pd.read_excel(filings_data_file) filings.rename(columns={'Name': 'name', 'Period': 'year'}, inplace=True) prospectus.rename(columns={'prospectus_issuer_name': 'name', 'fyear': 'year'}, inplace=True) df3 = pd.concat([filings, prospectus], ignore_index=True) from rapidfuzz import fuzz, utils df3.dropna(subset = ["name"], inplace=True) names = [utils.default_process(x) for x in df3['name']] for i1, row1 in df3.iterrows(): for i2 in df3.loc[(df3['year'] == row1['year']) & (df3.index > i1)].index: if fuzz.WRatio(names[i1], names[i2], processor=None, score_cutoff=90): df3.drop(i2, inplace=True) df3.reset_index(inplace=True)

1条回答

网友

1楼 · 发布于 2024-09-30 02:34:19

总结一下问题：

有两个数据帧，都有一个用于名称和年份的键
您希望合并两个数据帧并删除所有重复元素，重复元素是具有相同年份和非常相似名称的元素

我正在使用以下两个示例数据帧：

import pandas as pd

df1 = pd.DataFrame({
    'Name': ['NAM PROPERTY INC.', 'NAM PROPERTY INC.', 'ALCAN ALUM LTD'],
    'Period': [2019, 2019, 2018]})

df2 = pd.DataFrame({
    'prospectus_issuer_name': ['NAM TAI PROPERTY INC.', 'ALCAN ALUM LTD', 'AMOCO CDA PETE CO'],
    'fyear': [2019, 2019, 1992]})

我解决这个问题的方法是首先将两个数据帧合并

df1.rename(columns={'Name': 'name', 'Period': 'year'}, inplace=True)
df2.rename(columns={'prospectus_issuer_name': 'name', 'fyear': 'year'}, inplace=True)
df3 = pd.concat([df1, df2], ignore_index=True)

之后，可以在这个新的数据帧上迭代并删除所有重复的行。我在这里使用RapidFuzz，因为它比fuzzyfuzzy快（我是作者）。下面的代码提前创建了一个预处理名称列表，因为这些条目可能会被多次使用，并且预处理占用了运行时的大量时间。之后，它将对行进行迭代，并始终将其与具有较高索引的所有行（具有较低索引的行已经进行了比较，因为比率（a，b）=比率（b，a））以及具有正确年份的所有行进行比较。在正确的年份进行过滤可以大大减少运行慢速字符串匹配算法的次数。对于具有相似年份和非常相似名称的所有行，保留第一行，删除其他行。您可能需要使用分数线和匹配算法来确定哪一个最适合您的需要

from rapidfuzz import fuzz, utils

names = [utils.default_process(x) for x in df3['name']]
for i1, row1 in df3.iterrows():
    for i2 in df3.loc[(df3['year'] == row1['year']) & (df3.index > i1)].index:
        if fuzz.WRatio(names[i1], names[i2], processor=None, score_cutoff=90):
            df3.drop(i2, inplace=True)

df3.reset_index(inplace=True)

相关问题更多 >

编程相关推荐

热门问题

热门文章