2024-06-28 20:07:43 发布
网友
这里是网站,有5个属性
http://cpdocket.cp.cuyahogacounty.us/SheriffSearch/results.aspx?q=searchType%3dZipCode%26searchString%3d44106%26foreclosureType%3d%26dateFrom%3d10%2f6%2f2016+12%3a00%3a00+AM%26dateTo%3d4%2f6%2f2017+11%3a59%3a59+PM
我怎么能把这个网站读入R,然后用它做一张这样的表格呢
Address Prorated_Tax 1462 EAST 115TH STREET $0.00 10531 37 LEE AVE $0.00 10526 ORVILLE AVENUE $0.00 1116 ASHBURY AVENUE $0.00 2780 EAST OVERLOOK $0.00
或者我可以用Python来做吗?你知道吗
这个问题很宽泛,但我可以提出一些建议。你知道吗
你在这里要做的就是刮。这里有一篇关于如何在python中实现这一点的文章: http://docs.python-guide.org/en/latest/scenarios/scrape/ 基本思想是使用requests模块获取网页,然后使用lxml将其解析为XML树并从该树中获取值。你知道吗
requests
lxml
当然,如果您能更直接地访问这些数据,比如从restapi或数据库访问,那就更好了。刮削很容易受到攻击,因为当网页的设计和结构发生变化时,刮削代码会停止工作,直到您对其进行相应的调整。你知道吗
如果这是一个只运行一次或在有限的时间段内运行的脚本,并且数据量不太大,那么这个方法是非常好的。你知道吗
如果您搜索R,也可能有等价的库。你知道吗
使用bash可以使用curl命令
website = "www.interestingsite.com" cmd = paste( "curl", website, "> temp" ) system( cmd )
网站的html内容将存储在这个temp文件中,通过遍历可以提取其内容。你知道吗
这个问题很宽泛,但我可以提出一些建议。你知道吗
你在这里要做的就是刮。这里有一篇关于如何在python中实现这一点的文章: http://docs.python-guide.org/en/latest/scenarios/scrape/ 基本思想是使用
requests
模块获取网页,然后使用lxml
将其解析为XML树并从该树中获取值。你知道吗当然,如果您能更直接地访问这些数据,比如从restapi或数据库访问,那就更好了。刮削很容易受到攻击,因为当网页的设计和结构发生变化时,刮削代码会停止工作,直到您对其进行相应的调整。你知道吗
如果这是一个只运行一次或在有限的时间段内运行的脚本,并且数据量不太大,那么这个方法是非常好的。你知道吗
如果您搜索R,也可能有等价的库。你知道吗
使用bash可以使用curl命令
网站的html内容将存储在这个temp文件中,通过遍历可以提取其内容。你知道吗
相关问题 更多 >
编程相关推荐