一个来自Vantetider.se的统计数据的刮刀,建立在StatStrapper的顶部。

vantetider-scraper的Python项目详细描述


这是一个来自http://www.vantetider.se的统计数据刮刀,它构建在statscaper包的顶部<;https://github.com/jplusplus/statscaper>;

安装

pip install -r requirements.txt

scraper必须执行很多请求,并使用requests cache<;https://pypi.python.org/pypi/requests cache>;来存储查询

示例用法

fromvantetiderimportVantetiderScraperscraper=VantetiderScraper()scraper.items# List _implemeted_ datasets# [<VantetiderDataset: VantatKortareAn60Dagar (Väntat kortare än 60 dagar )>, <VantetiderDataset: Overbelaggning (Överbeläggningar)>, <VantetiderDataset: PrimarvardTelefon (Telefontillgänglighet)>, <VantetiderDataset: PrimarvardBesok (Läkarbesök)>, <VantetiderDataset: SpecialiseradBesok (Förstabesök)>, <VantetiderDataset: SpecialiseradOperation (Operation/åtgärd)>]dataset=scraper.get("Overbelaggning")# Get a specific dataset# List all available dimensionsprintdataset.dimensionsprintdatatset.regions# List available regionprintdatatset.years# List available years# Make a query, you have to explicitly define all dimension values you want# to query. By default the scraper will fetch default values.res=dataset.fetch({"region":"Blekinge","year":"2016","period":"Februari",# Currenty we can only query by id of dimension value"type_of_overbelaggning":["0","1"],# "Somatik" and "Psykiatri"})# Do something with the resultdf=res.pandas

实际应用,使用dataset.py存储。

fromvantetiderimportVantetiderScraperfromvantetider.allowed_valuesimportTYPE_OF_OVERBELAGGNING,PERIODSimportdatasetdb=dataset.connect('sqlite:///vantetider.db')TOPIC="Overbelaggning"# Set up local dbtable=db.create_table(TOPIC)scraper=VantetiderScraper()dataset=scraper.get(TOPIC)# Get all available regions and years for queryyears=[x.valueforxindataset.years]regions=[x.valueforxindataset.regions]# Query in chunks to be able to store to database on the runforregioninregions:foryearinyears:res=dataset.fetch({"year":year,"type_of_overbelaggning":[x[0]forxinTYPE_OF_OVERBELAGGNING],"period":PERIODS,"region":region,})df=res.pandasdata=res.list_of_dictstable.insert_many(data)

待办事项

  • 刮除“aterbesok”、“undersokningar”、“bupdetalj”、“bup”。
  • 启用查询所有维度上的标签名称
  • 将更多允许值添加到vanetider/allowed\u values.py
  • 使请求缓存成为可选。

devlop

运行测试:

make tests

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
为@Nonnull注释参数编写java单元测试   对于JAVA,如何从它自己的类调用插入排序来将数组分类到一个单独的类中?   Java中嵌套SQL查询的字符串解析   java在所有带有特定注释的方法上调用带注释的方面   在Java中将base64转换为PDF   无法在Android上强制转换java getApplicationContext()   雅加达ee Java ee:如何获取我的应用程序的URL?   IntelliJ:如何导入的文件夹。java文件作为库?   多线程Java(FX)在播放一种声音的同时,播放另一种声音   网络爬虫我需要将proto3版本中protobuf生成的java代码添加到nutch 1.7中   使用JAXRS注释资源的java Restlet客户端   java如何查找给定月份的日期范围   java Minecraft Bukkit插件:我的小游戏传送机不工作   Java Excel搜索和数组列表工作不正常