Python-nltk将Java应用程序日志拆分为句子的正则表达式

2024-10-03 00:30:02 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试编写一个正则表达式,使用Python-nltk工具箱将java应用程序日志拆分为句子

我已经通过log\u file\u 1\u raw=log\u file\u 1.read()将日志文件读入变量

然后我试着用下面的句子把课文分成几个句子:

log_file_1_sent = re.split('^[2][0][1][6]-[0-1][0-9]-[0-3][0-9][a-zA-Z0-9 : , ! \. \-]+([\\][n])$', log_file_1_raw).

因为log\ U file\ U 1\ raw变量将新行转换为\n,这标志着日志条目的结束,并且每个日志条目都以美式日期开始

当我运行上面的代码时,我最终将整个日志作为一个句子而不是多个句子

因此,如果有人能告诉我正则表达式哪里出了问题,我将不胜感激,因为我已经在这个问题上坚持了好几个小时了

这里是log_file_1_raw的摘录,当re.split解析它时,它作为一个句子返回

2016-11-11 08:56:12,801 INFO  mysite.co.uk.app.web.ips.controller.variables.Validator iatSYWX3SYnLrlEx0OtXPJJNun7iYe73gRtGa5G1YyIL89wmnJbg!49205849!1478850864631 - checking for each variable on page....\n
2016-11-11 08:56:12,801 INFO  mysite.co.uk.app.web.ips.controller.variables.Validator iatSYWX3SYnLrlEx0OtXPJJNun7iYe73gRtGa5G1YyIL89wmnJbg!49205849!1478850864631 - variable Name: 16691310467\n
2016-11-11 08:56:12,801 INFO  mysite.co.uk.app.web.ips.controller.variables.Validator iatSYWX3SYnLrlEx0OtXPJJNun7iYe73gRtGa5G1YyIL89wmnJbg!49205849!1478850864631 - variablesForm.getFileName: null\

Tags: infologwebapprawvariablesvalidator句子