查找两个字符串之间的公共有序字符

2024-09-20 04:04:51 发布

您现在位置:Python中文网/ 问答频道 /正文

给定两个字符串,查找两个字符串之间从左到右顺序相同的公共字符

示例1

string_1 = 'hcarry'
string_2 = 'sallyc'

Output - 'ay'

示例2

string_1 = 'jenny'
string_2 = 'ydjeu'

Output - 'je'

示例1的说明-

string_1string_2之间的常见字符是c、a、y。但是由于^ {CD3}}在^ {< CD5> }之前出现在^ {CD4}},并且在{{CD4}}{^

示例2的说明-

string_1string_2之间的共同字符是j、e、y。但是由于^ {CD11}}在^ {< CD13> }之前出现{^

我的方法-

  1. 查找字符串之间的公共字符,然后将其存储在每个字符串的另一个变量中

Example - 

string_1 = 'hcarry'
string_2 = 'sallyc'

Common_characters = c,a,y

string_1_com = cay
string_2_com = ayc

我使用了sorted, counter, enumerate函数来获取Python中的string_1_com and string_2_com

  1. 现在在string_1_com and string_2_com 之间找到最长的公共子序列。您将得到结果的输出

这就是暴力解决方案

这方面的最佳解决方案是什么


Tags: and字符串com示例outputstring顺序解决方案
3条回答

在我的书中,这个算法叫做字符串匹配。它在O(mn)中运行,其中mn是单词长度。我想它也可以运行在完整的单词上,什么是最有效的将取决于预期的常用字母数量以及排序和过滤是如何执行的。我将解释它的普通字母字符串,因为这更容易

其思想是查看(m+1)*(n+1)节点的有向无环图。通过此图的每条路径(从左上到右下)表示匹配单词的唯一方式。我们希望匹配字符串,并在单词中添加空格(-),以便它们与最大数量的常用字母对齐。例如cayayc的结束状态将是

cay-
-ayc

每个节点为其表示的部分匹配存储最高数量的匹配,并且在算法结束时,结束节点将为我们提供最高数量的匹配

我们从左上角开始,在这里没有匹配的字母,所以这里有0个匹配的字母(分数0)

    c a y
  0 . . .
a . . . .
y . . . .
c . . . .

我们将遍历此图,并使用以前节点的数据计算每个节点的最大匹配字母数

节点连接在左侧->;右,向上->;向下和斜向左向上->;马上下来

  • 向右移动表示使用cay中的一个字母,并将我们到达的字母与插入ayc中的-匹配
  • 向下移动表示相反的情况(从ayc消费,并将-插入到cay
  • 对角移动表示从每个单词中抽取一个字母并匹配这些字母

查看起始节点右侧的第一个节点,它表示匹配

c
-

这个节点(显然)只能从起始节点到达

第一行和第一列中的所有节点都将为0,因为它们都表示匹配一个或多个具有相同数量-的字母

我们得到了图表

    c a y
  0 0 0 0
a 0 . . .
y 0 . . .
c 0 . . .

这就是设置,现在有趣的部分开始了

查看第一个未赋值的节点,它表示将子字符串ca进行匹配,我们想确定如何使用最多数量的匹配字母到达该节点

  • 备选方案1:我们可以从左边的节点到达那里。左侧的节点表示匹配的节点
-
a

因此,通过选择这条路径到达当前节点,我们就到达了

-c
a-

c-匹配不会给出正确的匹配,因此此路径的分数为0(取自上一个节点)加0(刚刚进行的匹配c/-的分数)。因此,对于这个路径,0+0=0

  • 备选方案2:我们可以从上面到达该节点,该路径表示从
c   ->    c-
-         -a

这也给了我们额外的0分。这个分数是0

  • 备选方案3:我们可以从左上角到达该节点。这是从起始节点(完全没有)移动到从每个字母消耗一个字符。这就是匹配
c
a

因为ca是不同的字母,所以这个路径也得到了0+0=0

    c a y
  0 0 0 0
a 0 0 . .
y 0 . . .
c 0 . . .

但是对于下一个节点,它看起来更好。我们仍有三个备选方案需要考虑。 备选方案1&;2总是给我们额外的0分,因为它们总是表示用-匹配一个字母,所以这些路径将给我们0分。让我们转到备选方案3

对于我们当前的节点,对角移动意味着从

c   ->   ca
-        -a

这是一场比赛

这意味着有一条到这个节点的路径给我们1分。我们扔掉0,保存1

    c a y
  0 0 0 0
a 0 0 1 .
y 0 . . .
c 0 . . .

对于此行的最后一个节点,我们查看了三个备选方案,并意识到我们不会获得任何新的点(新的匹配),但我们可以使用之前的1点路径到达节点:

ca   ->   cay
-a        -a-

所以这个节点的得分也是1

对所有节点执行此操作,我们将得到以下完整的图

    c a y
  0 0 0 0
a 0 0 1 1
y 0 0 1 2
c 0 1 1 2

分数增加的唯一原因是什么

c   ->   ca   |   ca   ->   cay   |   -   ->   -c
-        -a   |   -a        -ay   |   y        yc

所以末端节点告诉我们最大匹配是2个字母。 因为在您的案例中,您希望知道分数为2的最长路径,所以您需要跟踪每个节点的路径

此图很容易实现为矩阵(或数组数组)

我建议您作为元素使用一个tuple和一个score元素和一个path元素,在path元素中只存储对齐字母,那么最终矩阵的元素将是

    c      a        y
  0 0      0        0
a 0 0      (1, a)   (1, a)
y 0 0      (1, a)   (2, ay)
c 0 (1, c) (1, a/c) (2, ay)

在一个地方我注意到a/c,这是因为字符串caayc有两个不同的最大长度的子序列。在这些情况下,您需要决定要做什么,要么选择一个,要么两个都保存

编辑:

下面是此解决方案的一个实现

def longest_common(string_1, string_2):
    len_1 = len(string_1)
    len_2 = len(string_2)
    
    m = [[(0,"") for _ in range(len_1 + 1)] for _ in range(len_2 + 1)] # intitate matrix
    
    for row in range(1, len_2+1):
        for col in range(1, len_1+1):
            diag = 0
            match = ""
            if string_1[col-1] == string_2[row-1]: # score increase with one if letters match in diagonal move
                diag = 1
                match = string_1[col - 1]
            # find best alternative
            if m[row][col-1][0] >= m[row-1][col][0] and m[row][col-1][0] >= m[row-1][col-1][0]+diag:
                m[row][col] = m[row][col-1] # path from left is best
            elif m[row-1][col][0] >= m[row-1][col-1][0]+diag:
                m[row][col] = m[row-1][col] # path from above is best
            else:
                m[row][col] = (m[row-1][col-1][0]+diag, m[row-1][col-1][1]+match) # path diagonally is best

    return m[len_2][len_1][1]
>>> print(longest_common("hcarry", "sallyc"))
ay
>>> print(longest_common("cay", "ayc"))
ay
>>> m
[[(0, ''), (0, ''), (0, ''), (0, '')],
 [(0, ''), (0, ''), (1, 'a'), (1, 'a')],
 [(0, ''), (0, ''), (1, 'a'), (2, 'ay')],
 [(0, ''), (1, 'c'), (1, 'c'), (2, 'ay')]]

但是。。您已经知道术语“最长公共子序列”,并且可以找到许多关于动态规划算法的描述。
Wiki link

伪码

function LCSLength(X[1..m], Y[1..n])
    C = array(0..m, 0..n)
    for i := 0..m
        C[i,0] = 0
    for j := 0..n
        C[0,j] = 0
    for i := 1..m
        for j := 1..n
            if X[i] = Y[j] //i-1 and j-1 if reading X & Y from zero
                C[i,j] := C[i-1,j-1] + 1
            else
                C[i,j] := max(C[i,j-1], C[i-1,j])
    return C[m,n]

function backtrack(C[0..m,0..n], X[1..m], Y[1..n], i, j)
    if i = 0 or j = 0
        return ""
    if  X[i] = Y[j]
        return backtrack(C, X, Y, i-1, j-1) + X[i]
    if C[i,j-1] > C[i-1,j]
        return backtrack(C, X, Y, i, j-1)
    return backtrack(C, X, Y, i-1, j)

下面是一个简单的、基于动态规划的问题实现:

def lcs(X, Y): 
    m, n = len(X), len(Y)
    L = [[0 for x in xrange(n+1)] for x in xrange(m+1)] 
  
    # using a 2D Matrix for dynamic programming
    # L[i][j] stores length of longest common string for X[0:i] and Y[0:j]
    for i in range(m+1): 
        for j in range(n+1): 
            if i == 0 or j == 0: 
                L[i][j] = 0
            elif X[i-1] == Y[j-1]: 
                L[i][j] = L[i-1][j-1] + 1
            else: 
                L[i][j] = max(L[i-1][j], L[i][j-1]) 
  
    # Following code is used to find the common string 
    index = L[m][n] 
  
    # Create a character array to store the lcs string 
    lcs = [""] * (index+1) 
    lcs[index] = "" 
  
    # Start from the right-most-bottom-most corner and 
    # one by one store characters in lcs[] 
    i = m 
    j = n 
    while i > 0 and j > 0: 
  
        # If current character in X[] and Y are same, then 
        # current character is part of LCS 
        if X[i-1] == Y[j-1]: 
            lcs[index-1] = X[i-1] 
            i-=1
            j-=1
            index-=1
  
        # If not same, then find the larger of two and 
        # go in the direction of larger value 
        elif L[i-1][j] > L[i][j-1]: 
            i-=1
        else: 
            j-=1
  
    print ("".join(lcs))

相关问题 更多 >