用Python将weblog文件作为CSV处理

1条回答

网友

1楼 · 发布于 2024-09-30 02:28:11

这样就可以了，您需要使用正则表达式来代替sep。
例如，此示例将NGinx日志文件解析为pandas.Dataframe：

import pandas as pd

df = pd.read_csv(log_file,
              sep=r'\s(?=(?:[^"]*"[^"]*")*[^"]*$)(?![^\[]*\])',
              engine='python',
              usecols=[0, 3, 4, 5, 6, 7, 8],
              names=['ip', 'time', 'request', 'status', 'size', 'referer', 'user_agent'],
              na_values='-',
              header=None
                )

编辑：

line = '172.16.0.3 - - [25/Sep/2002:14:04:19 +0200] "GET / HTTP/1.1" 401 - "" "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.1) Gecko/20020827"'
regex = '([(\d\.)]+) - - \[(.*?)\] "(.*?)" (\d+) - "(.*?)" "(.*?)"'

import re
print re.match(regex, line).groups()

输出将是一个包含6条信息的元组

('172.16.0.3', '25/Sep/2002:14:04:19 +0200', 'GET / HTTP/1.1', '401', '', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.1) Gecko/20020827')

相关问题更多 >

编程相关推荐

热门问题

热门文章

用Python将weblog文件作为CSV处理

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >