糟糕的谷歌搜索

2024-10-01 13:38:26 发布

您现在位置：Python中文网/ 问答频道 /正文

13010

网友

男 | 程序猿一只，喜欢编程写python代码。

我正试图废除谷歌搜索和人们也搜索链接。在

例如当你在谷歌上搜索克里斯托弗·诺兰。谷歌还推出了一个“人们也在搜索”，其中包括与我们的搜索相关的人的图片，这就是克里斯托弗·诺兰。在这种情况下，我们的人也搜索生产（克里斯蒂安贝尔，艾玛托马斯，扎克辛德等）。我有兴趣收集这些数据。在

我正在使用scrapy框架并编写了一个简单的scraper，但它返回一个空的csv数据文件。下面是代码我到目前为止你的帮助，谢谢。希望一切都很清楚我想要达到的目标。我使用Xpath助手（googleapp）来帮助查找Xpath。在

我的代码：

# PyGSSpider(spidder folder)
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import Selector
from PyGoogleSearch.items import PyGSItem
import sys

class PyGSSpider(CrawlSpider):
    name = "google"
    allowed_domains = ["www.google.com"]
    start_urls = ["https://www.google.com/#q=christopher+nolan"]

    #Extracts Christopher Nolan link     
    rules = [
        Rule(SgmlLinkExtractor(allow=("https://www.google.com/search?q=christpher+noaln&oq=christpher+noaln&aqs")), follow=True),
        Rule(SgmlLinkExtractor(allow=()), callback='parse_item')
    ]

    #Parse function for extracting the people also search link.
    def parse_item(self,response):
        self.log('Hi, this is an item page! %s' % response.url)
        sel=Selector(response)
        item=PyGSItem()
        item['peoplealsosearchfor'] = sel.xpath('//div[@id="cnt"]/@href').extract()

        return item

在项目.py公司名称：

^{pr2}$

Tags：代码 from import com response www google item

1条回答

网友

1楼 · 发布于 2024-10-01 13:38:26

这样做行不通的原因是因为谷歌实施了一种阻止机器人使用搜索的算法。在

然而，使用硒也许能达到这个目的。在

糟糕的谷歌搜索

相关问题更多 >

编程相关推荐

热门问题

热门文章

糟糕的谷歌搜索

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >