这是我第一次尝试创造一个蜘蛛,请原谅我,如果我做得不好。
这是我试图从中提取数据的网站链接。http://www.4icu.org/in/。我想要在页面上显示的所有大学的名单。但是当我运行下面的spider时,返回的是一个空的json文件。
我的项目.py在
import scrapy
class CollegesItem(scrapy.Item):
# define the fields for your item here like:
link = scrapy.Field()
这是蜘蛛
大学.py在
^{pr2}$
Tags:
正如问题的注释中所述,您的代码有一些问题。在
首先,您不需要两个方法,因为在
parse
方法中,您调用了与在start_urls
中相同的URL。在若要从站点获取一些信息,请尝试使用以下代码:
并根据你的需要调整它来填充你的物品。在
如您所见,您的浏览器在
table
中显示了一个额外的tbody
,当您使用Scrapy进行刮取时,它不存在。这意味着您经常需要判断您在浏览器中看到的内容。在这是工作代码
运行命令后 蜘蛛
^{pr2}$以下是结果片段:
相关问题 更多 >
编程相关推荐