斯皮蒂：哪只蜘蛛不知道呢

from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from scrapy.http import FormRequest, Request from meetic.items import MeeticItem class MeeticSpider(BaseSpider): name = "meetic" allowed_domains = ["meetic.fr"] start_urls = ["http://www.meetic.fr/"] def parse(self, response): print 'TEST1' return [FormRequest.from_response(response, formdata={'log': 'kobeddl', 'pwd': 'stack123456'}, callback=self.after_login)] def after_login(self, response): # check login succeed before going on if "authentication failed" in response.body: self.log("Login failed", level=log.ERROR) print 'TEST2' return # We've successfully authenticated, let's have some fun! else: print 'TEST3' return Request(url="http://www.meetic.fr/scheduler.php?url=", callback=self.parse_tastypage) def parse_tastypage(self, response): hxs = HtmlXPathSelector(response) item = MeeticItem() item['nb'] = hxs.select('/html/body/div/div/div/div/div/div/ul/li[2]/a/div/span').extract() print 'TEST4' return item

3条回答

网友
1楼 · 编辑于 2024-09-29 23:27:59

您可能应该更新问题，以反映第二个问题，即为什么您的代码无法正常工作，但是通过检查网站的源HTML，我认为您可能在表单响应中错误地标记了用户名和密码输入：
<input id="log" name="log" type="hidden"/> <input id="pwd" name="pwd" type="hidden"/>
尝试按如下方式修改parse：
^{pr2}$
如果不是，则可能是“txtHandle”和“txtPassword”。在

网友
2楼 · 编辑于 2024-09-29 23:27:59

如果仔细查看输出，您将看到一行内容为“Filtered offsite request to…”。因为形式的作用是secure.meetic.com网站. 您需要将该域添加到spider的allowed_domains属性中，这样就不会对其进行筛选。在

网友
3楼 · 编辑于 2024-09-29 23:27:59

如果您查看http://www.meetic.fr页面的源代码，您会发现登录表单发布到secure.meetic.com：

<form id="formLogin" name="formLogin" action="https://secure.meetic.com/authent/secure.php" method="post" onsubmit="javascript:submitMeeticForm(this.id);">

所以没有什么奇怪的，你POST登录数据到secure.meetic.com，登录后你会被重定向回正常的网站。在

相关问题更多 >

编程相关推荐

热门问题

热门文章