Python alcazar包_程序模块 - PyPI

刮网器框架

alcazar的Python项目详细描述

alcazar是一个python库，它简化了编写web scraper的任务。

它的一些核心功能是：

简洁的语法用于在html页面、json文档、文本字符串中查找相关数据
http缓存到磁盘以便在不重新提交http请求的情况下准确重播擦痕
限制对同一主机的请求
当http请求失败或页面无法按预期解析时，自动重试。
crawler用于维护要访问的url队列的工具
fail fast：默认情况下，我们宁愿崩溃，也不愿保存不正确或不完整的数据

Alcazar汇集了以下库：

Requests
lxml（包括cssselect）
JMESPath

入门

alcazar是available on PyPi，因此可以使用pip：

pip install alcazar

使用库的最简单方法是实例化一个Scraper，并调用它的fetch方法：

>>>importalcazar>>>scraper=alcazar.Scraper()>>>page=scraper.fetch('https://en.wikipedia.org/wiki/Gorgie')>>>print(page.one('div[@id="toc"]/preceding-sibling::p[./b]').text.normalized)Gorgie(/ˈɡɔːrɡiː/GOR-gee)isadenselypopulatedareaofEdinburgh,Scotland.ItislocatedinthewestofthecityandbordersMurrayfield,ArdmillanandDalry.

在这段代码中：

我们已获取该页的HTML
如果发生任何网络错误或http错误，我们将重试几次，每次尝试之间的睡眠时间都会增加
我们已将HTML解析为树
使用lxml的出色处理和从“坏”html中恢复，如在wild中所见
我们已经找到了我们感兴趣的元素
这里使用的是xpath表达式，但我们也可以使用css选择器
我们检查了是否只有一个元素与我们的查询匹配
否则就会抛出一个异常，确保我们只捕获所需的内容
我们提取了它的文本，删除了它的所有标记，并规范化了它的空白

查看samples目录了解alcazar的工作原理。

欢迎加入QQ群-->： 979659372

推荐PyPI第三方库

导航栏
项目描述
版本历史
下载文件
项目链接
首页
标签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
维护者
saintamh
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
如何更改QTextEdit小部件的颜色
如何更改Qthread内Qtimer的间隔？
如何更改QTreeView中特定分支的颜色？
如何更改QTreeView标题（也称为QHeaderView）的背景色？
如何更改QTreeWidget项的父项
如何更改QWidget（QTextEdit）在场景中的位置（PyQt）
如何更改random.randint的变量？
如何更改Raspberry Pi中的默认python版本
如何更改readline路径？
如何更改recycleview中所选项目的背景色。我还希望它自动选择第一个项目（白色背景）
如何更改regplot（）的点大小，seaborn的散点图函数（python）
如何更改relplot中置信区间的透明度？
如何更改reportlab画布对象的文件名？
如何更改RequestsOAuthlib中的时间戳和nonce？
如何更改Resnet上的频道数，使其仅在黑白图像上工作？

alcazar 0.5.1

alcazar的Python项目详细描述

入门

推荐PyPI第三方库

file-hasher

flaskbreadcrumbs

flake8executable

venturelab

microbeannotator

PyCWaves

dummy-poetry-repo

kaishi

pyg2p

wilhelm

distributions-DtoE

django-3-jet

darwyn-genopt

rushed-distributions

hgflow-official

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

alcazar 0.5.1

alcazar的Python项目详细描述

入门

推荐PyPI第三方库

file-hasher

flaskbreadcrumbs

flake8executable

venturelab

microbeannotator

PyCWaves

dummy-poetry-repo

kaishi

pyg2p

wilhelm

distributions-DtoE

django-3-jet

darwyn-genopt

rushed-distributions

hgflow-official

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签