将文件行视为集合的元素
lines的Python项目详细描述
简介
Lines是一个简单的程序,允许您操作 像一组人一样归档。它还提供了一些其他 分析这些文件的有用功能。
设置操作
给定两个文件
文件1包含
a b c d
以及文件2和
c d e f
有可能做像
- 联合
行-u file1 file2
给出
a b c d e f
- 交点
行-i file1 file2
给出
c d
- difference(文件1中不在文件2中的所有元素)。
行-d file1 file2
给出
a b
- 对称差分(所有元素仅存在于
- 套)。
行-s file1 file2
给出
a b e f
其他操作
这些是我发现有用的其他一些操作
- 挤压毛坯
所以,如果你跑
行–挤压文件1
a
b
c d f 你会得到 这将集合的元素划分为子集
成员之间的levenshtein距离有一个上限
其他。这对于识别输入文件中的模式很有用。 所以,如果我有一个类似这样的文件
我可以运行python lines.py–patterns-l 5 examples/f6并获得
-l 5是设置levenshtein距离的上限
到5。-p选项允许我们指定“异常百分比”。如果
子集中的元素数低于此值,它将打印所有
子集的元素。这有助于查看
匹配文件中的常规模式。
a
b
c
d
f
Archive.001-of-020.part
Archive.002-of-020.part
Archive.003-of-020.part
Archive.004-of-020.part
Archive.005-of-020.part
Archive.006-of-020.part
Archive.007-of-020.part
.Archive.008-of-020.part.zbnrw
Archive.009-of-020.part
Archive.010-of-020.part
Archive.011-of-020.part
Archive.012-of-020.part
Archive.013-of-020.part
Archive.014-of-020.part
Archive.015-of-020.part
Archive.016-of-020.part
Archive.017-of-020.part
Archive.018-of-020.part
Archive.019-of-020.part
Archive.020-of-020.part
19 elements
1 elements - {‘.Archive.008-of-020.part.zbnrw’}