如何使pythonurlib2在尝试登录站点时巧妙地避免安全检查?

2024-10-03 04:25:19 发布

您现在位置:Python中文网/ 问答频道 /正文

我第一次尝试爬网一个网站。我正在使用urllib2 Python 我正在尝试使用pythonurlib2和Beautifulsoup登录Foursquare社交网站。要查看特定页面,我需要提供用户名和密码。

所以,我遵循了ducumentation页面上描述的Basic Authentication。你知道吗

我想,一切都很顺利,但网站抛出了一个安全检查,要求我键入一个文本(capcha),然后再给我发送所需的页面。很明显,站点检测到,页面不是由人请求的,而是由爬虫请求的。你知道吗

那么,怎样才能避免被发现呢。如何使urllib2获得所需的页面,而不必停止安全检查?请帮忙。。你知道吗


Tags: 文本密码authentication键入basic网站页面urllib2
2条回答

您可能想改用foursquare API。你知道吗

你必须使用foursquare API。我想,没有别的办法了。API就是为这样的目的而设计的。 当HTML页面发生变化时,完全依赖于页面的HTML格式的爬虫程序将在将来失败

相关问题 更多 >