我正在尝试使用无法编辑的excel电子表格构建机器学习模型。.xls中的一些列存在格式问题,因此某些数据显示为日期时间戳,而不是str或int。以下是pd dataframe中的一个示例:
0 40-49 premeno 15-19 0-2 yes 3
1 50-59 ge40 15-19 0-2 no 1
2 50-59 ge40 35-39 0-2 no 2
3 40-49 premeno 35-39 0-2 yes 3
4 40-49 premeno 30-34 **2019-05-03 00:00:00** yes 2
在第4行中,3-5的值被意外格式化为日期(在xls中显示为03 May),因此在数据帧中被指定为日期时间戳。我尝试了许多方法用3-5
替换2019-05-03 00:00:00
,包括:
df['column'] = df['column'].replace([('2019-05-03 00:00:00')], '3-5')
并使用Timestamp.replace,但两者似乎都不起作用。如何用正确的数据替换格式错误的数据点
可能有一种更简单的方法,但您可能需要将
re.search
应用于积极的环视您可以使用
apply
迭代该列,并检查该元素是否是pd.Timestamp
的实例;如果是,则提取一个字符串“day-month”,否则保留原样例:
相关问题 更多 >
编程相关推荐