加速功能执行

def NAFunc(x, miss_unknown_list): x_output = x for i in miss_unknown_list: try: miss_unknown_value = float(i) except ValueError: miss_unknown_value = i if x == miss_unknown_value: x_output = np.nan break return x_output for cols in azdias.columns.tolist(): NAList = feat_info[feat_info.attribute == cols]['missing_or_unknown'].values[0] azdias[cols] = azdias[cols].apply(lambda x: NAFunc(x, NAList))

AGER_TYP ALTERSKATEGORIE_GROB ANREDE_KZ CJT_GESAMTTYP FINANZ_MINIMALIST 0 -1 2 1 2.0 3 1 -1 1 2 5.0 1 2 -1 3 2 3.0 1 3 2 4 2 2.0 4 4 -1 3 1 5.0 4

attribute information_level type missing_or_unknown AGER_TYP person categorical [-1,0] ALTERSKATEGORIE_GROB person ordinal [-1,0,9] ANREDE_KZ person categorical [-1,0] CJT_GESAMTTYP person categorical [0] FINANZ_MINIMALIST person ordinal [-1]

2条回答

网友

1楼 · 编辑于 2024-10-06 12:11:08

尝试使用DataFrame的^{}方法。这个怎么样？你知道吗

for c in azdias.columns.tolist():
    replace_list = feat_info[feat_info['attribute'] == c]['missing_or_unknown'].values
    azidias[c] = azidias[c].replace(to_replace=list(replace_list), value=np.nan)

在无法执行代码的情况下，有几件事我不确定：

在您的示例中，使用了.values[0]。你不想要所有的价值观吗？你知道吗
我不确定是否有必要做to_replace=list(replace_list)，只使用to_replace=replace_list可能有用。你知道吗

总的来说，我建议你自己想一想“熊猫肯定有功能为我做这件事。”通常，它们是这样做的。对于熊猫的表演，一般来说，避免循环和设置东西。矢量化方法往往要快得多。你知道吗

网友

2楼 · 编辑于 2024-10-06 12:11:08

如果azdias数据集是从read_csv或类似的IO函数获得的，则可以使用na_values关键字参数指定特定于列的缺失值表示形式，以确保返回的数据帧从一开始就具有适当的NaN值。示例代码如下所示。你知道吗

from ast import literal_eval

feat_info.set_index("attribute", inplace=True) 
# A more concise but less efficient alternative is
# na_dict = feat_info["missing_or_unknown"].apply(literal_eval).to_dict()
na_dict = {attr: literal_eval(val) for attr, val in feat_info["missing_or_unknown"].items()}
df_azdias = pd.read_csv("azidas.csv", na_values=na_dict)

至于数据类型，整数数据类型没有内置的NaN表示。因此需要浮点数据类型。如果使用fillna来填充缺少的值，则可以指定downcast参数，以使返回的序列或数据帧具有适当的数据类型。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章