数据帧
df = pd.DataFrame({'A': [['gener'], ['gener'], ['system'], ['system'], ['gutter'], ['gutter'], ['gutter'], ['gutter'], ['gutter'], ['gutter'], ['aluminum'], ['aluminum'], ['aluminum'], ['aluminum'], ['aluminum'], ['aluminum'], ['aluminum'], ['aluminum'], ['aluminum'], ['aluminum', 'toledo']], 'B': [['gutter'], ['gutter'], ['gutter', 'system'], ['gutter', 'guard', 'system'], ['ohio', 'gutter'], ['gutter', 'toledo'], ['toledo', 'gutter'], ['gutter'], ['gutter'], ['gutter'], ['how', 'to', 'instal', 'aluminum', 'gutter'], ['aluminum', 'gutter'], ['aluminum', 'gutter', 'color'], ['aluminum', 'gutter'], ['aluminum', 'gutter', 'adrian', 'ohio'], ['aluminum', 'gutter', 'bowl', 'green', 'ohio'], ['aluminum', 'gutter', 'maume', 'ohio'], ['aluminum', 'gutter', 'perrysburg', 'ohio'], ['aluminum', 'gutter', 'tecumseh', 'ohio'], ['aluminum', 'gutter', 'toledo', 'ohio']]}, columns=['A', 'B'])
它的样子
我有一个包含两列列表的数据框。
A B
0 [gener] [gutter]
1 [gener] [gutter]
2 [system] [gutter, system]
3 [system] [gutter, guard, system]
4 [gutter] [ohio, gutter]
5 [gutter] [gutter, toledo]
6 [gutter] [toledo, gutter]
7 [gutter] [gutter]
8 [gutter] [gutter]
9 [gutter] [gutter]
10 [aluminum] [how, to, instal, aluminum, gutter]
11 [aluminum] [aluminum, gutter]
12 [aluminum] [aluminum, gutter, color]
13 [aluminum] [aluminum, gutter]
14 [aluminum] [aluminum, gutter, adrian, ohio]
15 [aluminum] [aluminum, gutter, bowl, green, ohio]
16 [aluminum] [aluminum, gutter, maume, ohio]
17 [aluminum] [aluminum, gutter, perrysburg, ohio]
18 [aluminum] [aluminum, gutter, tecumseh, ohio]
19 [aluminum, toledo] [aluminum, gutter, toledo, ohio]
问题
如果我有列表列,是否有pandas函数允许我对整个列表数组进行操作,以检查交叉点并将布尔值或交叉值作为新序列返回?
例如,我希望熊猫有一个类似的:
def intersection(df, col1, col2, return_type='boolean'):
if return_type == 'boolean':
df = df[[col1, col2]]
s = []
for idx in df.iterrows():
s.append(any([phrase in idx[1][0] for phrase in idx[1][1]]))
S = pd.Series(s)
return S
elif return_type == 'word':
df = df[[col1, col2]]
s = []
for idx in df.iterrows():
s.append(', '.join([word for word in list(set(idx[1][0]).intersection(set(idx[1][1])))]))
S = pd.Series(s)
return S
#Create column C in df
df['C'] = intersection(df, 'A', 'B', 'word')
。。。无需编写自己的函数或使用for循环。我觉得必须有一种更简单的方法来比较同一行中两列的列表,看看它们是否相交。
我可以用for
循环来完成,但它对我来说很难看
for
循环返回boolean
序列:
for idx in df.iterrows():
any([phrase in idx[1][0] for phrase in idx[1][1]])
产生:
False
False
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
或者,使用set
s查找相交单词:
for idx in df.iterrows():
', '.join([word for word in list(set(idx[1][0]).intersection(set(idx[1][1])))])
''
''
'system'
'system'
'gutter'
'gutter'
'gutter'
'gutter'
'gutter'
'gutter'
'aluminum'
'aluminum'
'aluminum'
'aluminum'
'aluminum'
'aluminum'
'aluminum'
'aluminum'
'aluminum'
'toledo, aluminum'
要检查
df.A
中的每个项是否包含在df.B
中:为了得到工会:
只要使用由
pandas
支持的apply
函数,就可以了。由于可以有两列以上的列用于相交,因此可以这样准备辅助函数,然后将其应用于
DataFrame.apply
函数(请参见http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.apply.html,注意选项axis=1
表示“跨系列”,而axis=0
表示“沿系列”,其中 序列只是数据框中的一列)。然后,列中的每一行作为iterableSeries
对象传递给应用的函数。您可以对辅助函数的结果进行进一步的操作,或者类似地进行一些更改。
希望这有帮助。
相关问题 更多 >
编程相关推荐