好的,我需要抓取以下网页:https://www.programmableweb.com/category/all/apis?deadpool=1
这是一个API列表。大约有22000个原料药需要清理。你知道吗
我需要:
1)获取表(第1-889页)中每个API的URL,并获取以下信息:
2)然后我需要从每个URL中搜集一堆信息。你知道吗
3)将数据导出到CSV
问题是,我有点不知道该怎么考虑这个项目。据我所见,没有AJAX调用来填充表,这意味着我必须直接解析HTML(对吗?)你知道吗
在我看来,逻辑是这样的:
使用requests&BS4库来刮表
然后,从每一行抓取HREF
访问该HREF,刮取数据,移动到下一个
冲洗并重复所有表格行。
我是否在正确的轨道上,这是否适用于请求和BS4?你知道吗
以下是我一直试图解释的一些screenshots。你知道吗
非常感谢你的帮助。这伤到我的头了哈哈
这里我们使用
requests
、BeautifulSoup
和pandas
:结果可以在线查看:Check Here
输出简单:
现在进行
href
解析:在线检查结果:Here
示例视图如下:
如果您希望将这2
csv
个文件放在一起,那么下面是代码:联机结果:Here
如果你想继续做,你应该多读一些关于报废的书。你知道吗
相关问题 更多 >
编程相关推荐