使用列（系列）作为键访问字典中的值，并将这些值与另一列进行比较

2条回答

网友

1楼 · 编辑于 2024-09-29 23:19:21

您可以尝试以下方法：

df['C'] = np.where(df.B.eq(df.A.map(countries_dict)), True, False)

输出：

    A   B       C
0   ANZ apj_anz True
1   ANZ apj_aus False
2   AU  apj_aus True
3   NZ  apj_nzl True
4   ANZ apj_anz True
5   ANZ apj_aus False
6   AU  apj_aus True
7   NZ  apj_nzl True
8   ANZ apj_anz True
9   ANZ apj_aus False

这将避免创建helper列，从而减少内存使用

您还可以尝试将列A和B转换为分类列，以防这些列中的不同元素数量较少。这将进一步减少内存消耗并提高性能

示例：

为a列和B列创建了具有10个不同值的样本df

转换前：

Data columns (total 2 columns):
 #   Column  Non-Null Count    Dtype 
 -                    - 
 0   A       1000000 non-null  object
 1   B       1000000 non-null  object
dtypes: object(2)
memory usage: 22.9+ MB

%%timeit
df['C'] = np.where(df.B.eq(df.A.map(countries_dict)), True, False)

63.6 ms ± 499 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

将列转换为类别后：

Data columns (total 2 columns):
 #   Column  Non-Null Count    Dtype   
 -                    -   
 0   A       1000000 non-null  category
 1   B       1000000 non-null  category
dtypes: category(2)
memory usage: 9.5 MB

%%timeit
df['C'] = np.where(df.B.eq(df.A.map(countries_dict)), True, False)

3.07 ms ± 47.8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

网友

2楼 · 编辑于 2024-09-29 23:19:21

对于这里的小样本数据，您的代码似乎运行良好。问题可能是由于原始数据集太大，并且在定义新的帮助器列和其他中间结果的过程中内存不足

您可以尝试减少内存使用，而无需定义以下帮助器列：

您可以将列A映射为countries_dict，比较映射结果是否等于列B。该比较结果（布尔真/假）可以很容易地设置为新列C，如下所示：

df['C'] = df['A'].map(countries_dict) == df['B']

结果：

print(df)

     A        B      C
0  ANZ  apj_anz   True
1  ANZ  apj_aus  False
2   AU  apj_aus   True
3   NZ  apj_nzl   True
4  ANZ  apj_anz   True
5  ANZ  apj_aus  False
6   AU  apj_aus   True
7   NZ  apj_nzl   True
8  ANZ  apj_anz   True
9  ANZ  apj_aus  False

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用列（系列）作为键访问字典中的值，并将这些值与另一列进行比较

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >