如何在R中读取网页并用I制作数据表

Address Prorated_Tax 1462 EAST 115TH STREET $0.00 10531 37 LEE AVE $0.00 10526 ORVILLE AVENUE $0.00 1116 ASHBURY AVENUE $0.00 2780 EAST OVERLOOK $0.00

2条回答

网友

1楼 · 编辑于 2024-06-28 20:07:43

这个问题很宽泛，但我可以提出一些建议。你知道吗

你在这里要做的就是刮。这里有一篇关于如何在python中实现这一点的文章： http://docs.python-guide.org/en/latest/scenarios/scrape/ 基本思想是使用requests模块获取网页，然后使用lxml将其解析为XML树并从该树中获取值。你知道吗

当然，如果您能更直接地访问这些数据，比如从restapi或数据库访问，那就更好了。刮削很容易受到攻击，因为当网页的设计和结构发生变化时，刮削代码会停止工作，直到您对其进行相应的调整。你知道吗

如果这是一个只运行一次或在有限的时间段内运行的脚本，并且数据量不太大，那么这个方法是非常好的。你知道吗

如果您搜索R，也可能有等价的库。你知道吗

网友

2楼 · 编辑于 2024-06-28 20:07:43

使用bash可以使用curl命令

website = "www.interestingsite.com"
cmd = paste( "curl", website, "> temp" )
system( cmd )

网站的html内容将存储在这个temp文件中，通过遍历可以提取其内容。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章