一个通用的并发树爬网算法和一个网站爬网的示例实现。

concurrent_tree_crawler的Python项目详细描述


关于

这个项目是一个python库,它实现了一个通用的并发树爬网算法。实际上,它可以用于需要几个爬网线程来探索树状结构的任务,例如从分层网站下载文档时。

尽管此库的主要应用程序域使用它来爬网具有已知树状结构的网站,但其主要设计目标之一是灵活地将其调整到不同的应用程序区域。图书馆被有意识地发展为在以下3个案例中有用。这里列出了从最小到最一般的情况(从需要库用户最少实现工作的情况到需要库用户最多实现工作的情况)。

库的主要用例

  1. 使用已知和固定的树状结构对HTML网站进行爬网。在这种方法中,树级别的数量是固定的,并且在某个树级别上的每个页面具有基本相同的结构(即,由同一个解析器解析)。在每个级别上,到较低级别页面的链接不一定放在一个页面上,而是可以分布在多个页面之间。请参见示例测试网站 concurrent戋tree戋u crawler/test/data/original戋u site/issues戋1.html 以获取此类网站的示例。
  2. 以树状结构爬行其他HTML网站。
  3. 爬行其他类似树的结构。
  4. < > >

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Android测试运行失败:没有测试结果   java设置JMenuItems与Nimbus LaF的边界   java是使用springboot、Crudepository和MySQL检查重复值的好方法吗   谷歌电子表格的Java时代日期   java向xml文件添加EditText不起作用   java ORA00933:SQL命令未正确结束WHERE子句   如何在java中防止JTextField上使用CTRL+C?   java绑定到TypeLiteral在google guice中是好的还是坏的做法   java找到了原始类型,缺少泛型类的返回参数   Kafka Streams API中ArrayList Serde的java问题   java在hibernate中,哪种持久化上下文的性能更好?   java通过本机查询获取数据库url、名称和模式版本   如何为Java枚举编写通用for循环?   在Java应用程序中播放MP3   如何使用VisualVM度量短时间运行的Java应用程序的性能?   java从当前日期获取datetime(秒)   简单JMH基准中的javagrpcoome和NPE   java如何加载Maven项目库中Spring jar的应用程序上下文   JavaCC XPath解析器   用于Scala和Java的类型安全生成器库