我试图把一些网站上的名字的bios列表放在一起。在
我有名字和相应的网站:
name website
-----------------
John Doe abc.com
Steve J apple.com
例如,我想搜索johndoe@http://abc.com
我想获取John Doe所在站点的url:
例如:
^{pr2}$我当然想服从机器人.txt在每个网站上。我不是数据挖掘,我已经知道一个人'X'与一个网站'Y'相关联以列出他的个人简历。我相信网站管理员不会介意的!在
我遇到了Scrapy,但我不知道在一个网站上找到这个名字的确切网址。我所有的是网站的根,我想爬虫爬行通过每个链接的网页。在
当我输入这个的时候,我开始想为什么不把搜索查询和网站输入到Google中,然后以一种自动化的方式使结果失效,但是我想Google不允许你在他们的ToS中这样做。在
使用一个搜索引擎,无论是通过刮取它,还是使用他们的API(如果你能遵循他们的使用条款的话),绝对是最好的选择。在
请参见示例how to do it with DuckDuckGo。在
相关问题 更多 >
编程相关推荐