iTErrors的性能问题

for ii, i in a.iterrows(): for ij, j in a.iterrows(): if ii != ij: if i['DOCNO'][-5:] == j['DOCNO'][4:9]: if i['RSLTN1'] > j['RSLTN1']: dl.append(ij) else: dl.append(ii) elif i['DOCNO'][-5:] == j['DOCNO'][-5:]: if i['RSLTN1'] > j['RSLTN1']: dl.append(ij) else: dl.append(ii) c = a.drop(a.index[dl])

In [107]:a[['DOCNO','RSLTN1']].sample(n=5) Out[107]: DOCNO RSLTN1 6815 MP00064958 72386.0 218 MP0059189A 65492.0 8262 MP00066187 96497.0 2999 MP00061663 43677.0 4913 MP00063387 42465.0

1条回答

网友

1楼 · 发布于 2024-10-01 13:37:17

这个怎么适合你的需要？你知道吗

import pandas as pd

s = '''\
DOCNO   RSLTN1
MP00059189  72386.0
MP0059189A  65492.0
MP00066187  96497.0
MP00061663  43677.0
MP00063387  42465.0'''

# Recreate dataframe
df = pd.read_csv(pd.compat.StringIO(s), sep='\s+')

# Create mask 
# We sort to make sure we keep only highest value
# Remove all non-digit according to: https://stackoverflow.com/questions/44117326/
m = (df.sort_values(by='RSLTN1',ascending=False)['DOCNO']
       .str.extract('(\d+)', expand=False)
       .astype(int).duplicated())

# Apply inverted `~` mask 
df = df.loc[~m]

结果df：

        DOCNO   RSLTN1
0  MP00059189  72386.0
2  MP00066187  96497.0
3  MP00061663  43677.0
4  MP00063387  42465.0

在此示例中，删除了以下行：

MP0059189A  65492.0

相关问题更多 >

编程相关推荐

热门问题

热门文章