输出来两次更新一个Q问30分钟前发布这个

import re with open('newfiles.txt') as f: k = f.read() p = re.compile(r'[\w\:\-\.\,\']+|[^[\w\:\-\.\'\,]\s]') originaltext = p.findall(k) uniquelist = [] for word in originaltext: if word not in uniquelist: uniquelist.append(word) indexes = ' '.join(str(uniquelist.index(word)+1) for word in originaltext) n = p.findall(indexes) file = open("newfiletwo.txt","w") file.write (' '.join(str(e) for e in n)) file.close() file = open("newfilethree.txt","w") file.write(' '.join(uniquelist)) file.close() with open('newfiletwo.txt') as f: indexess = f.read() with open('newfilethree.txt') as f: differentwords = f.read() differentwords = p.findall(differentwords) indexess = [uniquelist.index(word) for word in originaltext] for word in originaltext: if not word in differentwords: differentwords.append(word) i = differentwords.index(word) indexess.append(i) s = "" # the reconstructed sentence for i in indexess: s = s + differentwords[i] + " " print(s)

1条回答

网友

1楼 · 发布于 2024-06-26 02:43:55

问题是，你如何限定什么词是，什么词不是。例如，逗号是单词的一部分吗？在你的情况下，这是没有提到这样，而它也不是一个分隔符。所以你会得到一个单独的单词逗号，或点，等等。我无法访问您的输入，因此我只能提供示例：

p = re.compile(r'[\w\:\-\.\,]+|[^[\w\:\-\.\,]\s]')

有一点-在本例中：“Word”、“Word”、“Word”、“Word.”、“Word”都是独立的词。因为dot和coma是单词的一部分。你不能吃了蛋糕就吃了。为了解决这个问题。。。如果分离前有空格，则需要存储信息。你知道吗

更新：哦，是的。双倍输出。存储在中间的文件-正常。所以在那之后有些东西被归档了。看这两行： i = differentwords.index(word) indexess.append(i) 它们必须在前面的if语句中。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章