Python CrawlerFriend包_程序模块 - PyPI

一种轻量级爬虫程序，在给定url和关键字的情况下，以html形式或字典形式给出搜索结果。

CrawlerFriend的Python项目详细描述

crawlerfriend

一个轻量级的web爬虫支持python 2.7 字典形式给定的网址和关键字。如果你经常访问一些网站并查找一些关键字然后这个python包将为您自动执行任务，并且将结果返回到Web浏览器中的HTML文件中。

安装

pip install CrawlerFriend

如何使用？

所有结果均为HTML格式
import CrawlerFriend urls = ["http://www.goal.com/","http://www.skysports.com/football","https://www.bbc.com/sport/football"] keywords = ["Ronaldo","Liverpool","Salah","Real Madrid","Arsenal","Chelsea","Man United","Man City"] crawler = CrawlerFriend.Crawler(urls, keywords) crawler.crawl() crawler.get_result_in_html()
以上代码将在浏览器中打开以下HTML文档
词典中的所有结果
result_dict = crawler.get_result()
更改默认参数
crawlerfriend默认情况下使用四个html标记“title”、“h1”、“h2”、“h3”和max_link_limit=50进行搜索。但是可以通过向构造函数传递参数来更改它：
crawler = CrawlerFriend.Crawler(urls, keywords, max_link_limit=200, tags=['p','h4']) crawler.crawl()
标签：
程序
url
字典
html
情况
关键字
爬虫
形式
crawler
欢迎加入QQ群-->： 979659372
推荐PyPI第三方库
stomp
stomp协议在python中的实现。
odoo10-addon-cms-delete-content-example
显示CMS删除内容的基本内容
pynuvo
用于与Nuvo多区域放大器对话的PythonAPI
adafruit-circuitpython-is31fl3731
用于IS31FL3731 charlieplex LED矩阵的circuitpython库。
LabSwarmManagement
Docker Swarm实验室管理库。
django-easyfilters-ex
为django模型对象列表轻松创建基于链接的筛选。
business-duration
通过排除周末、公共假日和非营业时间，计算营业时间（天、小时、分和秒）
growler-jade
为growler应用程序提供jade渲染器的扩展
thegamesdb
用于python的games db api包装器
graphjoiner
用连接实现graphql
twisted-json-socket2
Twisted JSON套接字协议
dwl
下载youtube“稍后观看”视频的愚蠢命令。
bower.p
我是如何学会不再担心和爱的
torchbearer-visual
火炬手可视化库
crdown
Crunchyroll视频下载程序。

导航栏
项目描述
版本历史
下载文件
项目链接
首页
标签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
维护者
sreejoy
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
为什么在使用strptime时会出现未进行转换的数据错误？
为什么在使用strptim时会出现这个datetime日期错误
为什么在使用StyleFrame时索引列的标题不显示sf.至excel()?
为什么在使用sum（）函数时会发生“int”对象不可调用的错误？
为什么在使用sympy.dsolve时会得到“'list'对象没有属性'func'”？
为什么在使用tabla时会得到一个空的数据帧？
为什么在使用tensorboard时需要add_graph（）的第二个参数？
为什么在使用TensorFlow Lite转换YOLOv4时，推断时间/大小没有改进？有什么可能的改进吗？
为什么在使用Tensorflow加载训练批时会出现内存泄漏？
为什么在使用tensorflow时会收到警告/错误（使用函数API，但未实现错误）
为什么在使用tetpyclient发出POST请求时出现403错误？
为什么在使用TextBlob时会出现HTTP错误？
为什么在使用TFIDF时出现错误“IndexError:list index out of range”pyspark.ml.feature？
为什么在使用timedelta格式化之后，我在python中的日期是错误的？
为什么在使用timeit或exec函数时，函数中的变量不会在提供的全局命名空间中搜索？

CrawlerFriend 1.0.11

CrawlerFriend的Python项目详细描述

crawlerfriend

安装

如何使用？

词典中的所有结果
`result_dict = crawler.get_result()`

推荐PyPI第三方库

stomp

odoo10-addon-cms-delete-content-example

pynuvo

adafruit-circuitpython-is31fl3731

LabSwarmManagement

django-easyfilters-ex

business-duration

growler-jade

thegamesdb

graphjoiner

twisted-json-socket2

dwl

bower.p

torchbearer-visual

crdown

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

CrawlerFriend 1.0.11

CrawlerFriend的Python项目详细描述

crawlerfriend

安装

如何使用？

词典中的所有结果 result_dict = crawler.get_result()

推荐PyPI第三方库

stomp

odoo10-addon-cms-delete-content-example

pynuvo

adafruit-circuitpython-is31fl3731

LabSwarmManagement

django-easyfilters-ex

business-duration

growler-jade

thegamesdb

graphjoiner

twisted-json-socket2

dwl

bower.p

torchbearer-visual

crdown

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

词典中的所有结果
`result_dict = crawler.get_result()`

导航栏

项目链接

标签