我第一次尝试爬网一个网站。我正在使用urllib2 Python
我正在尝试使用pythonurlib2和Beautifulsoup登录Foursquare社交网站。要查看特定页面,我需要提供用户名和密码。
所以,我遵循了ducumentation页面上描述的Basic Authentication。你知道吗
我想,一切都很顺利,但网站抛出了一个安全检查,要求我键入一个文本(capcha),然后再给我发送所需的页面。很明显,站点检测到,页面不是由人请求的,而是由爬虫请求的。你知道吗
那么,怎样才能避免被发现呢。如何使urllib2获得所需的页面,而不必停止安全检查?请帮忙。。你知道吗
您可能想改用foursquare API。你知道吗
你必须使用foursquare API。我想,没有别的办法了。API就是为这样的目的而设计的。 当HTML页面发生变化时,完全依赖于页面的HTML格式的爬虫程序将在将来失败
相关问题 更多 >
编程相关推荐