如何在网站中爬网以搜索名称并在找到时返回URL以确认robots.txt?

2024-09-25 02:34:08 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图把一些网站上的名字的bios列表放在一起。在

我有名字和相应的网站:

name      website
-----------------
John Doe  abc.com
Steve J   apple.com

例如,我想搜索johndoe@http://abc.com

我想获取John Doe所在站点的url:

例如:

^{pr2}$

我当然想服从机器人.txt在每个网站上。我不是数据挖掘,我已经知道一个人'X'与一个网站'Y'相关联以列出他的个人简历。我相信网站管理员不会介意的!在

我遇到了Scrapy,但我不知道在一个网站上找到这个名字的确切网址。我所有的是网站的根,我想爬虫爬行通过每个链接的网页。在

当我输入这个的时候,我开始想为什么不把搜索查询和网站输入到Google中,然后以一种自动化的方式使结果失效,但是我想Google不允许你在他们的ToS中这样做。在


Tags: namecomhttpapple列表网站googlewebsite