Trulia爬虫工具集

crawl_trulia的Python项目详细描述


https://travis-ci.org/MacHu-GWU/crawl_trulia-project.svg?branch=masterhttps://img.shields.io/pypi/v/crawl_trulia.svghttps://img.shields.io/pypi/l/crawl_trulia.svghttps://img.shields.io/pypi/pyversions/crawl_trulia.svg

欢迎使用Crawl_Trulia文档

这是一个小项目,提供url路由,html解析工具来抓取www.trulia.com。

用法

一个真实的例子:

>>>fromcrawl_trulia.urlencoderimporturlencoder>>>fromcrawl_trulia.htmlparserimporthtmlparser>>>fromcrawlib.spiderimportspider# install crawlib first# use address, city and zipcode>>>address="22 Yew Rd">>>city="Baltimore">>>zipcode="21221">>>url=urlencoder.by_address_city_and_zipcode(address,city,zipcode)>>>html=spider.get_html(url)>>>house_detail_data=htmlparser.get_house_detail(html)>>>house_detail_data{"features":{},"public_records":{"AC":"a/c","basement_type":"improved basement (finished)","bathroom":2,"build_year":1986,"county":"baltimore county","exterior_walls":"siding (alum/vinyl)","heating":"heat pump","lot_size":7505,"lot_size_unit":"sqft","partial_bathroom":1,"roof":"composition shingle","sqft":998}}# usually combination of address and zipcode is enough>>>address="2004 Birch Rd">>>zipcode="21221">>>url=urlencoder.by_address_and_zipcode(address,zipcode)>>>html=spider.get_html(url)>>>house_detail_data=htmlparser.get_house_detail(html)

安装

crawl_trulia在pypi上发布,所以您只需要:

$ pip install crawl_trulia

要升级到最新版本:

$ pip install --upgrade crawl_trulia

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java单链表计数算法   使用Jlink在一个平台上为另一个平台创建Java运行时映像   矩阵如何在java中正确输入矩阵   集群服务器和独立服务器之间的java差异?   eclipse java。尝试从jar实例化类时发生lang.NoClassDefFoundError   java试图在Spring启动异常后重定向视图   java我在OnResume()中有必要的代码,而不是OnCreate(),但当我转到另一个活动然后返回时,ListView中的数组数据仍然会消失   sockets使用Java一个字节一个字节地复制文件,相当于复制整个文件?   java通过数组随机化坐标   java通过安卓连接到nodejs服务器并获得超时异常   在调试消息中放置空字符串调试Java 7看似奇怪的行为   java从语句创建PreparedStatement?   SpringWeb应用程序体系结构中的java上下文级别   java无法将字符串附加到jtextarea   java抽象可以通过使用接口来实现