Python中文
首页
教程
问答
标签
搜索
登录
注册
用regex-python解析大文件的最佳方法
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我必须在python中使用regex解析一个大的日志文件(2GB)。在日志文件中,正则表达式匹配我感兴趣的行。日志文件也可能包含不需要的数据。在</p> <p>以下是文件中的示例:</p> <pre><code>"#DEBUG:: BFM [L4] 5.4401e+08ps MSG DIR:TX SCB_CB TYPE:DATA_REQ CPortID:'h8 SIZE:'d20 NumSeg:'h0001 Msg_Id:'h00000000" </code></pre> <p>我的正则表达式是<code>".DEBUG.*MSG."</code></p> <p>首先我要用空格分开,然后字段:值模式被插入到sqlite3数据库中;但是对于大型文件,解析该文件大约需要10到15分钟。在</p> <p>请提出在最短时间内完成上述任务的最佳方法。在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>保罗的回答是有道理的,你首先要明白你在哪里“浪费”了时间。 如果没有探查器,最简单的方法是在算法的每个“步骤”前后(打开文件、逐行读取(以及在内部,split/regexp识别调试行所用的时间)、将其插入数据库等,以毫秒为单位发布时间戳。在</p> <p>如果不进一步了解您的代码,可能会有一些非常耗时的“陷阱”: -多次打开日志文件 -每次需要插入数据时打开数据库,而不是打开一个连接,然后边写边写</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
得到媒体:缩略图url从rss源
9 回答
得到对数正态随机数给定log10均值和log10标准差
9 回答
得到工作,波斯特不
10 回答
得到左半积和右半积的绝对差最小的元素
1 回答
得到幻数错误?
6 回答
得到异常错误“线程中的异常-1(最有可能在解释器关闭期间引发)”,它使用Parami
7 回答
得到循环
4 回答
得到德语的语法变化
3 回答
得到我认为是好的结果,但还不够
4 回答
得到截断svd.transform()返回float16而不是float64
6 回答
得到所有不相交的集合的并集
4 回答
得到所有函数求值组合的矩阵
5 回答
得到扭曲延迟取消错误当使用刮痧时
1 回答
得到控制台.log使用Selenium python从Chrome输出一次,然后调用第二次为空
8 回答
得到操作系统环境通过NSSM运行Python
8 回答
得到数学方程中的表达式
2 回答
得到数据库结构属性
9 回答
得到整数的后三位
9 回答
得到整数的第n位精度
7 回答
得到最低落的reddit评论
6 回答