将文件行视为集合的元素

lines的Python项目详细描述


简介

Lines是一个简单的程序,允许您操作 像一组人一样归档。它还提供了一些其他 分析这些文件的有用功能。

设置操作

给定两个文件

文件1包含

a b c d

以及文件2

c d e f

有可能做像

  • 联合

行-u file1 file2

给出

a b c d e f
  • 交点

行-i file1 file2

给出

c d
  • difference(文件1中不在文件2中的所有元素)。

行-d file1 file2

给出

a b
  • 对称差分(所有元素仅存在于
    套)。

行-s file1 file2

给出

a b e f

其他操作

这些是我发现有用的其他一些操作

  • 挤压毛坯
这个操作挤压文件中的空行。

所以,如果你跑 行–挤压文件1

a b c

d

f

你会得到

a b c d f
  • 识别模式

这将集合的元素划分为子集 成员之间的levenshtein距离有一个上限 其他。这对于识别输入文件中的模式很有用。

所以,如果我有一个类似这样的文件

Archive.001-of-020.part Archive.002-of-020.part Archive.003-of-020.part Archive.004-of-020.part Archive.005-of-020.part Archive.006-of-020.part Archive.007-of-020.part .Archive.008-of-020.part.zbnrw Archive.009-of-020.part Archive.010-of-020.part Archive.011-of-020.part Archive.012-of-020.part Archive.013-of-020.part Archive.014-of-020.part Archive.015-of-020.part Archive.016-of-020.part Archive.017-of-020.part Archive.018-of-020.part Archive.019-of-020.part Archive.020-of-020.part

我可以运行python lines.py–patterns-l 5 examples/f6并获得

19 elements 1 elements - {‘.Archive.008-of-020.part.zbnrw’}

-l 5是设置levenshtein距离的上限 到5。-p选项允许我们指定“异常百分比”。如果 子集中的元素数低于此值,它将打印所有 子集的元素。这有助于查看 匹配文件中的常规模式。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何使用数据库中的值填充p:selectOneMenu   Java/Junit中的异步单元测试一个非常简单但不成功的例子   在Debian上使用Java连接到MySQL   java测试时如何恢复表中的一条记录/行?   java如何将重点放在jbutton上而不是放在另一个jbutton上?   java我可以从HPROF文件中获取JVM标志吗?   java如何使用自定义比较器在2个集合上保留   java让stringTokenizer将一行文本拆分为预定义变量的最佳方法是什么   Kotlin Android/Java字符串日期时间格式,API21   exchange server EWS Java Api自动发现不工作   netbeans是Java新手,似乎无法修复错误;应为类、接口或枚举。274062   我正在尝试将一些scala代码转换为Java8,以创建新的Lambda和并行集合   流中的分配api(java)   用于串行通信的java Python字节数组