所以我有很多日志txt文件,看起来有点像这样:
2021-04-01T12:54:38.156Z START RequestId: 123 Version: $LATEST
2021-04-01T12:54:42.356Z END RequestId: 123
2021-04-01T12:54:42.356Z REPORT RequestId: 123 Duration: 4194.14 ms Billed Duration: 4195 ms Memory Size: 2048 MB Max Memory Used: 608 MB
我需要使用这些数据创建一个数据框,其中每行显示一个日志,并具有以下功能:
DateTime, Keyword(start/end), RequestId, Duration, BilledDuration, MemorySize, MaxMemoryUsed
问题是每个文件都有不同的长度,并且有不同类型的日志,所以不是每一行看起来都一样,而是有模式。我从未使用过正则表达式,但我认为这是我必须使用的。那么有没有办法将这个字符串转换成数据集呢
(我的目标是执行内存使用异常检测)
这里有一个类似的问题: Log file to Pandas Dataframe
可以将
read_csv
与分隔符一起使用:\s*\[
显然,我仍然不擅长在这个网站上提出正确的问题,但很高兴自己能更好地找到解决方案,所以如果其他人也有同样的问题,这就是我所做的:
相关问题 更多 >
编程相关推荐