我想基于数据帧中的一个或多个列以及这些列中的一个或多个值创建逻辑掩码。然后,应将这些掩码应用于另一列。在最简单的情况下,遮罩可能如下所示:
mask = data['a'] == 4
newData = data['c'][mask]
然而,也可能出现更复杂的情况:
mask = ((data['a'] == 4) | (data['a'] == 8)) & ((data['b'] == 1) | (data['b'] == 5))
newData = data['c'][mask]
此外,可能需要多个掩码。主要问题是我事先不知道
因为这些信息将由用户提供。你知道吗
我想我可以让用户按照以下方式创建一个输入文件:
# <maskName> - <columnName>: <columnValue(s)> - <columnName>: <columnValue(s)> - etc.
maskA - a: 4, 8 - b: 1, 5 - c: 1
maskB - a: 0, 8 - c: 2, 6, 10
targetColumn: d
然后我可以读取输入文件并在其上循环。通过适当地处理这些行,我可以确定所需掩码的数量、相关列、相关值以及应该应用掩码的列。我还可以将这些信息添加到列表和/或字典中。你知道吗
但是,我不知道如何最好地处理这个问题,因为我事先不知道掩码/列/值的数量,一旦知道它们,如何生成适当的掩码。任何帮助都将不胜感激。你知道吗
因为可以将字符串传递给
df.query()
,所以只要可以将输入格式转换为字符串,就很容易找到所需的子集。我为您的输入格式编写的解析器并不是非常优雅,但希望您能理解:相关问题 更多 >
编程相关推荐