wg gesucht的python网络爬虫/刮刀。在wg gesucht网站上搜寻新公寓列表,并根据保存的过滤器和保存的文本模板向海报发送消息。

wg-gesucht-crawler-cli的Python项目详细描述


https://img.shields.io/travis/grantwilliams/wg-gesucht-crawler-cli.svghttps://img.shields.io/pypi/v/wg-gesucht-crawler-cli.svgDocumentation Status

wg gesucht的python网络爬虫/刮刀。在wg gesucht网站上搜寻新公寓列表,并根据保存的过滤器和保存的文本模板向海报发送消息。

安装

$ pip install wg-gesucht-crawler-cli

或者,如果安装了virtualenvwrapper:

$ mkvirtualenv wg-gesucht-crawler-cli
$ pip install wg-gesucht-crawler-cli

使用

可以使用以下命令直接从命令行运行:

$ wg-gesucht-crawler-cli --help

或者如果您想在自己的项目中使用它:

fromwg_gesucht.crawlerimportWgGesuchtCrawler

只需确保保存至少一个搜索过滤器以及你的wg gesucht帐户模板文本。

功能

  • 根据保存的过滤器搜索https://wg-gesucht.de新的工作组广告
  • 发送保存的模板消息并应用于所有匹配的列表
  • 每~5分钟重新播放一次
  • 全天候在RPI或免费EC2微实例上运行,始终成为首批申请新房源的人之一

被recaptcha捕获

我已经让爬虫在每个请求之间休眠5-8秒,以尝试避免它们的recaptcha,但是如果爬虫被捕获,您可以通过浏览器手动登录到您的wg gesucht帐户并解决recaptcha,然后重新启动爬虫。 如果继续发生,您还可以在wg_gesucht.py中的get_page()函数中增加睡眠时间

历史记录

预释放

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java类。getResource和ClassLoader。getSystemResource:有没有理由选择其中一个而不是另一个?   在Java中以编程方式粘贴后恢复剪贴板   Java字符串到日期没有时间   JavaSpring注释:@Component起作用,@Repository不起作用   java“addScript”在HSQL中是否有最大记录计数?   java如何将值从JDialog框返回到父JFrame?   java我的模块库的用户有没有办法访问尚未导出的类?   java javac:未找到命令   java如何解决jsoup错误:无法找到请求目标的有效证书路径   类中的java作用域变量   Java中集合实现中的arraylist add()方法不起作用   java如何使用while循环和从用户接收输入来近似Pi?   java Spring安全CSRF培训模式   在安卓系统中,如何通过在警报框外单击来限制用户?