检测两个tex之间哪些词是相同的

网友

1楼 · 编辑于 2024-09-27 09:37:21

首先将两个字符串中的单词提取到列表中。我想您应该忽略任何尾随句点或逗号。将其中一个列表添加到集合（用于预期的常量时间查找）。对于另一个列表中的每个单词，检查它是否也出现在集合中；这样就可以得到两个文本中的共同单词。我假设重复的元素只计算一次。以下是执行此操作的代码：

def get_words(text):
    words = text.split()
    for i in range(len(words)):
        words[i] = words[i].strip('.,')
    return words

def common_words(text1, text2):
    words1 = get_words(text1)
    words2 = set(get_words(text2))
    common = set()
    for word in words1:
        if word in words2:
            common.add(word)
    return common

例如，它将返回：

{'enjoying', 'had', 'to', 'Mary', 'used', 'the', 'The', 'was', 'down', 'name', 'He', 'run', 'a'}

注意，单词“the”和“the”被认为是不同的。如果不想这样，可以将所有单词转换成小写；words[i] = lower(words[i].strip('.,'))

网友

2楼 · 编辑于 2024-09-27 09:37:21

您可以使用字典首先存储第一个文本中的单词，而不只是在迭代第二个文本时查找。但这需要空间。你知道吗

所以最好的方法是使用正则表达式。你知道吗

网友

3楼 · 编辑于 2024-09-27 09:37:21

既然你没有展示你自己的作品，我就给你一个整体的算法。你知道吗

首先，把每一篇文章分成几个字。这可以通过几种方式实现。您可以删除任何标点符号，然后在空格上拆分。你需要决定在dog's中的撇号是否是你可能想留下撇号的单词的一部分。但是去掉句号，逗号等等。你知道吗

第二，将每个文本的单词放入一个集合中。你知道吗

第三，使用内置的set操作查找两个集合中的单词。你知道吗

这将回答你的实际问题。如果你想问另一个涉及字数或位置的问题，你应该说清楚。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章