在python2.7中将HTML表数据解析为JSON并保存到文本文件

2条回答

网友

1楼 · 编辑于 2024-10-01 09:31:42

下面的代码将从这两个表中获取数据，并将其全部输出为json格式的字符串。在

工作示例（Python 2.7.9）：

from lxml import html
import requests
import re as regular_expression
import json

page = requests.get("http://www.disastercenter.com/crime/uscrime.htm")
tree = html.fromstring(page.text)

tables = [tree.xpath('//table/tbody/tr[2]/td/center/center/font/table/tbody'),
          tree.xpath('//table/tbody/tr[5]/td/center/center/font/table/tbody')]

tabs = []

for table in tables:
    tab = []
    for row in table:
        for col in row:
            var = col.text_content()
            var = var.strip().replace(" ", "")
            var = var.split('\n')
            if regular_expression.match('^\d{4}$', var[0].strip()):
                tab_row = {}
                tab_row["Year"] = var[0].strip()
                tab_row["Population"] = var[1].strip()
                tab_row["Total"] = var[2].strip()
                tab_row["Violent"] = var[3].strip()
                tab_row["Property"] = var[4].strip()
                tab_row["Murder"] = var[5].strip()
                tab_row["Forcible_Rape"] = var[6].strip()
                tab_row["Robbery"] = var[7].strip()
                tab_row["Aggravated_Assault"] = var[8].strip()
                tab_row["Burglary"] = var[9].strip()
                tab_row["Larceny_Theft"] = var[10].strip()
                tab_row["Vehicle_Theft"] = var[11].strip()
                tab.append(tab_row)
    tabs.append(tab)

json_data = json.dumps(tabs)

output = open("output.txt", "w")
output.write(json_data)
output.close()

网友

2楼 · 编辑于 2024-10-01 09:31:42

如果可以使用requests和lxml模块，这可能就是您想要的。这里呈现的数据结构非常简单，请根据您的需要进行调整。在

首先，从请求的URL获取响应并将结果解析为HTML树：

import requests        
from lxml import etree
import json

response = requests.get("http://www.disastercenter.com/crime/uscrime.htm")
tree = etree.HTML(response.text)

假设您想提取这两个表，那么创建这个XPath并解压缩结果。totals是“犯罪数量”，而{}是“每100000人的犯罪率”：

^{pr2}$

提取原始数据（td.find('./')表示第一个子项，不管它有什么标记）并清理字符串（r''python2.x需要原始字符串）：

raw_data = []
for tbody in totals, rates:
    rows = []
    for tr in tbody.getchildren():
        row = []
        for td in tr.getchildren():
            child = td.find('./')
            if child is not None and child.tag != 'br':
                row.append(child.text.strip(r'\xa0').strip(r'\n').strip())
            else:
                row.append('')
        rows.append(row)
    raw_data.append(rows)

将前两行中的表标题压缩在一起，然后删除多余的行，这在切片表示法中被视为第11和第12步：

data = {}
data['tags'] = [tag0 + tag1 for tag0, tag1 in zip(raw_data[0][0], raw_data[0][1])]

for raw in raw_data:
    del raw[::12]
    del raw[::11]

存储其余的原始数据并创建一个JSON文件（可选：使用separators=(',', ':')消除空白）：

data['totals'], data['rates'] = raw_data[0], raw_data[1]
with open('data.json', 'w') as f:
    json.dump(data, f, separators=(',', ':'))

相关问题更多 >

编程相关推荐

热门问题

热门文章

在python2.7中将HTML表数据解析为JSON并保存到文本文件

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >