斯皮蒂:哪只蜘蛛不知道呢

2024-09-29 23:27:59 发布

您现在位置:Python中文网/ 问答频道 /正文

我想废弃这个网站:Meetic.fr,法语版本meetic.com网站. 在

我们的目标是知道经过认证后,有多少人被连接(显示在页面顶部)。在

这是蜘蛛:([kobeddl,stack123456]是真正的登录,如果你想尝试一些东西)

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy.http import FormRequest, Request

from meetic.items import MeeticItem

class MeeticSpider(BaseSpider):
    name = "meetic"
    allowed_domains = ["meetic.fr"]
    start_urls = ["http://www.meetic.fr/"]

    def parse(self, response):
        print 'TEST1'
        return [FormRequest.from_response(response, formdata={'log': 'kobeddl', 'pwd': 'stack123456'}, callback=self.after_login)]


    def after_login(self, response):
    # check login succeed before going on
        if "authentication failed" in response.body:
            self.log("Login failed", level=log.ERROR)  
            print 'TEST2'           
            return
    # We've successfully authenticated, let's have some fun!
        else:
            print 'TEST3'       
            return Request(url="http://www.meetic.fr/scheduler.php?url=", callback=self.parse_tastypage)

    def parse_tastypage(self, response):
        hxs = HtmlXPathSelector(response)
        item = MeeticItem()
        item['nb'] = hxs.select('/html/body/div/div/div/div/div/div/ul/li[2]/a/div/span').extract()
        print 'TEST4'
        return item 

以下是命令提示符下的结果:result编辑:如您所见,只有第一个print语句TEST1正在工作。 我刚接触python和scrapy,所以原因可能很愚蠢。在

我想我的蜘蛛有个错误,这里:if "authentication failed" in response.body: 我在另一只蜘蛛身上发现了这一点,但我不知道如何调整它来适应这只蜘蛛。在

我还更改了设置文件中的用户代理 USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64; rv:7.0.1) Gecko/20100101 Firefox/7.7'

提前谢谢


Tags: fromimportselfdivloghttpreturnparse
3条回答

您可能应该更新问题,以反映第二个问题,即为什么您的代码无法正常工作,但是通过检查网站的源HTML,我认为您可能在表单响应中错误地标记了用户名和密码输入:

<input id="log" name="log" type="hidden"/>
<input id="pwd" name="pwd" type="hidden"/>

尝试按如下方式修改parse

^{pr2}$

如果不是,则可能是“txtHandle”和“txtPassword”。在

如果仔细查看输出,您将看到一行内容为“Filtered offsite request to…”。因为形式的作用是secure.meetic.com网站. 您需要将该域添加到spider的allowed_domains属性中,这样就不会对其进行筛选。在

如果您查看http://www.meetic.fr页面的源代码,您会发现登录表单发布到secure.meetic.com

<form id="formLogin" name="formLogin" action="https://secure.meetic.com/authent/secure.php" method="post" onsubmit="javascript:submitMeeticForm(this.id);">

所以没有什么奇怪的,你POST登录数据到secure.meetic.com,登录后你会被重定向回正常的网站。在

相关问题 更多 >

    热门问题