简单,强大和蟒蛇网页搜索结果爬虫。

pageflow的Python项目详细描述


页面流

pageflow是用于网页搜索结果爬虫的python(2和3)库。 它提供了一个简单的api并支持google、baidu、bing等搜索引擎。 [https://pypi.org/project/pageflow/]

功能

  • 支持页面参数,而不仅仅是第一个页面结果。
  • 支持重定向页面信息提取。

安装

一。使用pip

pip install pageflow

2.使用setup.py

git clone https://github.com/Lapis-Hong/PageFlow.git 
cd PageFlow
pip setup.py install

用法

frompageflowimportPageFlowquery="python"pages=1# search results total pagespf=PageFlow("baidu",proxies=None)# Get search page html.html=pf.get_html(query=query,pages=pages)# The following results are all generator of SearchResult obj.# Get search result urls.url=pf.get_url(query=query,pages=pages)# Get search result titles.title=pf.get_title(query=query,pages=pages)# Get search result abstract.abstract=pf.get_abstract(query=query,pages=pages)# Get search result redirect html.redirect_html=pf.get_redirect_html(query=query,pages=pages)# Get search result redirect content.redirect_content=pf.get_redirect_content(query=query,pages=pages)# Get search result title, abstract and url.result=pf.get(query=query,pages=pages)# Get search result title, abstract, url, redirect html and redirect content.result_all=pf.get_all(query=query,pages=pages)

参考文献

https://github.com/howie6879/magic_googlehttps://github.com/meibenjin/GoogleSearchCrawlerhttps://github.com/chrislinan/cx-extractor-python

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java无法启动发现(Android附近连接API v2)   如何用Java在Firestore中创建嵌套字段?   GUI Java中的swing BMI计算器;   java如何检查上下文是否为当前正在运行的活动   LiveCycle ES4支持java 8吗?   构建Spring引导API后,java类路径不正确   启动时swing Java Jtable行颜色   JAVAutil。ConcurrentModificationException随着Apache Tomee Plus 7.1.2的发布启动ear文件   在JAVA中使用lambda表达式的foreach for循环   java小程序没有在我的IE8和firefox6中运行。0.2   java有没有比ConcurrentHashMap性能更好的并发映射?   java Android静态与非静态问题   尝试提交TableCell时调用java cancelEdit()   java在LINUX系统上使用MCRTsim模拟器   Java多态性方法重写