2024-09-30 01:24:25 发布
网友
我需要帮助清理一个非常大的数据框。其中一行是“PostingTimeUtc”,应该只是日期,但有几行插入错误,它们有文本字符串。如何为“PostingTimeUtc”选择所有具有字符串而不是日期的行并将其删除
我对这个网站和编码都是新手,所以如果我含糊不清,请告诉我
我假设它是熊猫数据帧。您可以根据正则表达式来过滤行
df.column_name.str.contains('your regex here')
请记住,即使简短,也要添加示例-
这可能适用于您的情况:
from pandas.api.types import is_datetime64_any_dtype as is_datetime df[df['column name'].map(is_datetime)]
其中map将is_datetime函数(结果为True或False)应用于每一行,布尔过滤器应用于数据帧
map
is_datetime
True
False
不要忘记将df赋值给这个结果,以保留未赋值的值inplace
df
inplace
df = df[df['column name'].map(is_datetime)]
我假设它是熊猫数据帧。您可以根据正则表达式来过滤行
请记住,即使简短,也要添加示例-
这可能适用于您的情况:
其中
map
将is_datetime
函数(结果为True
或False
)应用于每一行,布尔过滤器应用于数据帧不要忘记将
df
赋值给这个结果,以保留未赋值的值inplace
相关问题 更多 >
编程相关推荐