我正在尝试预处理数据框中的一列。问题是,关系栏中有[[content1]、[content2]、[content3]]。我想拆下支架
我尝试过以下方法:
df['value'] = df['value'].str[0]
我得到的输出是 [内容一]
df
print df
id value
1 [[str1],[str2],[str3]]
2 [[str4],[str5]]
3 [[str1]]
4 [[str8]]
5 [[str9]]
6 [[str4]]
预期的输出应该是
id value
1 str1,str2,str3
2 str4,str5
3 str1
4 str8
5 str9
6 str4
您可以使用有用的正则表达式python包
re
。 这就是解决办法生成测试数据
将数据转换为数据帧
从“值”列中删除“[”,“]”
看起来你有一系列的清单。您可以尝试取消并加入:
或:
NB。如果您收到错误,请提供它和列的类型(
df.dtypes
)正如我所看到的,您的数据和采样是相同的:
样本数据:
结果:
注意:如错误代码所示
AttributeError: Can only use .str accessor with string values
,这意味着它没有将其视为str
,因此您可以通过astype(str)
将其强制转换为str
,然后执行替换操作相关问题 更多 >
编程相关推荐