数一数有多少不同的单词有两次字母“o”

['aut minima deleniti et autem minus illo esse dolores eligendi corrupti dolore minima nostrum eos nobis nam nihil aspernatur nam ut quae sint laborum ut dolores error possimus aperiam consequatur', 'pariatur sed quo non itaque qui pariatur saepe ad quis consequatur nihil iste molestias et eos ut expedita vel reiciendis dolorem enim doloribus quam architecto aperiam', 'sed repudiandae pariatur similique est aut sequi animi in aperiam enim ipsa enim dolorem inventore aut quo odio in consequatur et', 'aspernatur ad esse et aliquid itaque dolores rerum quia commodi explicabo non magnam nostrum consectetur non sint eum nulla et aut quis doloribus itaque nulla molestiae quis est est quo facilis incidunt a ipsa in itaque sed aut nobis facere dignissimos atque unde cum ea vero', 'tenetur vel quod voluptatum laudantium dolores neque aut est modi qui aperiam itaque aperiam quae ratione doloremque aut delectus quas qui', 'qui placeat vel ipsam praesentium sint recusandae dicta minus praesentium omnis sequi a sed veritatis porro ab et officia esse commodi pariatur sequi cumque', 'mollitia facilis amet deleniti quia laborum commodi et molestias maxime quia dignissimos inventore neque libero deleniti ad quo corrupti numquam quis accusantium', 'architecto harum sunt et enim nisi commodi et id reprehenderit illum molestias illo facilis fuga eum illum quasi fugit qui', 'modi voluptatem quia et saepe inventore sed quo ea debitis explicabo vel perferendis commodi exercitationem sequi eum dolor cupiditate ab molestiae nemo ullam neque hic ipsa cupiditate dolor molestiae neque nam nobis nihil mollitia unde', 'voluptates quod in ipsum dicta fuga voluptatibus sint consequatur quod optio molestias nostrum repellendus consequatur aliquam fugiat provident omnis minus est quisquam exercitationem eum voluptas fugit quae eveniet perspiciatis assumenda maxime']

loremWordsRDD = loremRDD.flatMap(lambda x: x.split(' ')) distintWordsMapRDD = loremWordsRDD.map(lambda word: (word,1)).reduceByKey(lambda a,b:a+b) distintWordsRDD=distintWordsMapRDD.keys().distinct() # Showing 8 first words print(distintWordsRDD.take(8))

3条回答

网友

1楼 · 编辑于 2024-07-03 07:56:55

如果只有一个字符串sentence：

results = set(word for word in sentence.split() if word.count('o') == 2)

如果您有一个字符串列表sentences（这是您在问题中显示的）：

results = set(
    word
    for sentence in sentences
    for word in sentence.split()
    if word.count('o') == 2
)

我使用set来统一结果

示例中句子列表的输出：

{'odio', 'dolorem', 'dolore', 'doloremque', 'dolor', 'doloribus', 'optio', 'commodi', 'porro', 'dolores'}

如果您需要一个列表，那么只需转换list:results = list(results))中的set即可

网友

2楼 · 编辑于 2024-07-03 07:56:55

以下方面应起作用：

your_text=''.join(your_original_list_of_texts)
result=[i for i in your_text.split() if i.count('o')==2]
print(result)

['dolores', 'dolore', 'dolores', 'dolorem', 'doloribus', 'dolorem', 'odio']

但是，您提供的文本被拆分为许多子文本（“sometext1”、“sometext2”、“sometext3”等），因此需要进行一些额外的工作，以便形成简单的文本格式（“alltext”）如果您提供输入文本的确切细节，我将调整代码，使其能够在无需额外手动操作的情况下与输入正常工作

网友

3楼 · 编辑于 2024-07-03 07:56:55

我通过以下方法解决了此问题：

results = distintWordsRDD.filter(lambda word: word.count('o')==2)
print (results.collect())
print(results.count())

结果:

['porro', 'odio', 'laboriosam', 'doloremque', 'doloribus', 'dolores', 'dolor', 'corporis', 'commodi', 'optio', 'dolorum', 'dolore', 'dolorem']
13

相关问题更多 >

编程相关推荐

热门问题

热门文章