Python-两个字符串之间的差异

2024-05-20 08:20:40 发布

您现在位置:Python中文网/ 问答频道 /正文

我想在一张单子里储存很多单词。这些词很多都很相似。例如,我有单词afrykanerskojęzyczny,还有很多单词像afrykanerskojęzycznymafrykanerskojęzyczninieafrykanerskojęzyczni。找到两个字符串之间的差异并从第一个字符串和diff恢复第二个字符串的有效解决方案是什么?


Tags: 字符串diff差异解决方案单词单子储存afrykanerskoj
3条回答

你要求的是一种特殊形式的压缩。xdelta3是为这种特殊的压缩而设计的,它有一个python绑定,但是您可能可以直接使用zlib。您需要将zlib.compressobjzlib.decompressobjzdict参数一起设置为“基本单词”,例如afrykanerskojęzyczny

警告是zdict仅在python 3.3及更高版本中受支持,如果您的所有diff都有相同的“基本词”,则最容易编写代码,这可能是您想要的,也可能不是您想要的。

我喜欢ndiff的答案,但是如果你想把它全部吐到一个只包含更改的列表中,你可以这样做:

import difflib

case_a = 'afrykbnerskojęzyczny'
case_b = 'afrykanerskojęzycznym'

output_list = [li for li in difflib.ndiff(case_a, case_b) if li[0] != ' ']

您可以在difflib模块中使用ndiff来执行此操作。它拥有将一个字符串转换为另一个字符串所需的所有信息。

一个简单的例子:

import difflib

cases=[('afrykanerskojęzyczny', 'afrykanerskojęzycznym'),
       ('afrykanerskojęzyczni', 'nieafrykanerskojęzyczni'),
       ('afrykanerskojęzycznym', 'afrykanerskojęzyczny'),
       ('nieafrykanerskojęzyczni', 'afrykanerskojęzyczni'),
       ('nieafrynerskojęzyczni', 'afrykanerskojzyczni'),
       ('abcdefg','xac')] 

for a,b in cases:     
    print('{} => {}'.format(a,b))  
    for i,s in enumerate(difflib.ndiff(a, b)):
        if s[0]==' ': continue
        elif s[0]=='-':
            print(u'Delete "{}" from position {}'.format(s[-1],i))
        elif s[0]=='+':
            print(u'Add "{}" to position {}'.format(s[-1],i))    
    print()      

印刷品:

afrykanerskojęzyczny => afrykanerskojęzycznym
Add "m" to position 20

afrykanerskojęzyczni => nieafrykanerskojęzyczni
Add "n" to position 0
Add "i" to position 1
Add "e" to position 2

afrykanerskojęzycznym => afrykanerskojęzyczny
Delete "m" from position 20

nieafrykanerskojęzyczni => afrykanerskojęzyczni
Delete "n" from position 0
Delete "i" from position 1
Delete "e" from position 2

nieafrynerskojęzyczni => afrykanerskojzyczni
Delete "n" from position 0
Delete "i" from position 1
Delete "e" from position 2
Add "k" to position 7
Add "a" to position 8
Delete "ę" from position 16

abcdefg => xac
Add "x" to position 0
Delete "b" from position 2
Delete "d" from position 4
Delete "e" from position 5
Delete "f" from position 6
Delete "g" from position 7

相关问题 更多 >