我试图从 此网页,链接到网页 http://www.disastercenter.com/crime/uscrime.htm
我可以把这个放入文本文件。但我想 Json格式的响应。我如何在python中做到这一点。在
这是我的代码:
import urllib
import re
from bs4 import BeautifulSoup
link = "http://www.disastercenter.com/crime/uscrime.htm"
f = urllib.urlopen(link)
myfile = f.read()
soup = BeautifulSoup(myfile)
soup1=soup.find('table', width="100%")
soup3=str(soup1)
result = re.sub("<.*?>", "", soup3)
print(result)
output=open("output.txt","w")
output.write(result)
output.close()
下面的代码将从这两个表中获取数据,并将其全部输出为json格式的字符串。在
工作示例(Python 2.7.9):
如果可以使用requests和lxml模块,这可能就是您想要的。这里呈现的数据结构非常简单,请根据您的需要进行调整。在
首先,从请求的URL获取响应并将结果解析为HTML树:
假设您想提取这两个表,那么创建这个XPath并解压缩结果。}是“每100000人的犯罪率”:
^{pr2}$totals
是“犯罪数量”,而{提取原始数据(
td.find('./')
表示第一个子项,不管它有什么标记)并清理字符串(r''
python2.x需要原始字符串):将前两行中的表标题压缩在一起,然后删除多余的行,这在切片表示法中被视为第11和第12步:
存储其余的原始数据并创建一个JSON文件(可选:使用
separators=(',', ':')
消除空白):相关问题 更多 >
编程相关推荐