如何在网站中爬网以搜索名称并在找到时返回URL以确认robots.txt？

2024-09-25 02:34:08 发布

男 | 程序猿一只，喜欢编程写python代码。

我试图把一些网站上的名字的bios列表放在一起。在

我有名字和相应的网站：

name      website
-----------------
John Doe  abc.com
Steve J   apple.com

例如，我想搜索johndoe@http://abc.com

我想获取John Doe所在站点的url：

例如：

^{pr2}$

我当然想服从机器人.txt在每个网站上。我不是数据挖掘，我已经知道一个人'X'与一个网站'Y'相关联以列出他的个人简历。我相信网站管理员不会介意的！在

我遇到了Scrapy，但我不知道在一个网站上找到这个名字的确切网址。我所有的是网站的根，我想爬虫爬行通过每个链接的网页。在

当我输入这个的时候，我开始想为什么不把搜索查询和网站输入到Google中，然后以一种自动化的方式使结果失效，但是我想Google不允许你在他们的ToS中这样做。在

Tags： name com http apple 列表网站 google website

1条回答

网友

1楼 · 发布于 2024-09-25 02:34:08

使用一个搜索引擎，无论是通过刮取它，还是使用他们的API（如果你能遵循他们的使用条款的话），绝对是最好的选择。在