数一数有多少不同的单词有两次字母“o”

2024-07-03 07:56:55 发布

您现在位置:Python中文网/ 问答频道 /正文

我是新来的ApacheSpark。目前,我正在对一篇文章进行一些统计分析。我开始读取文本并将其存储在变量中,如下所示:

loremRDD = sc.textFile(fileName, 8).map(removePunctuation).filter(lambda x: len(x)>0)
#First 10 lines
loremRDD.take(10)

结果是一个PythonRDD[66] at RDD at PythonRDD.scala:53变量。下面是文本的前10行:

['aut minima deleniti et autem minus illo esse dolores eligendi corrupti dolore minima nostrum eos nobis nam nihil aspernatur nam ut quae sint laborum ut dolores error possimus aperiam consequatur',
 'pariatur sed quo non itaque qui pariatur saepe ad quis consequatur nihil iste molestias et eos ut expedita vel reiciendis dolorem enim doloribus quam architecto aperiam',
 'sed repudiandae pariatur similique est aut sequi animi in aperiam enim ipsa enim dolorem inventore aut quo odio in consequatur et',
 'aspernatur ad esse et aliquid itaque dolores rerum quia commodi explicabo non magnam nostrum consectetur non sint eum nulla et aut quis doloribus itaque nulla molestiae quis est est quo facilis incidunt a ipsa in itaque sed aut nobis facere dignissimos atque unde cum ea vero',
 'tenetur vel quod voluptatum laudantium dolores neque aut est modi qui aperiam itaque aperiam quae ratione doloremque aut delectus quas qui',
 'qui placeat vel ipsam praesentium sint recusandae dicta minus praesentium omnis sequi a sed veritatis porro ab et officia esse commodi pariatur sequi cumque',
 'mollitia facilis amet deleniti quia laborum commodi et molestias maxime quia dignissimos inventore neque libero deleniti ad quo corrupti numquam quis accusantium',
 'architecto harum sunt et enim nisi commodi et id reprehenderit illum molestias illo facilis fuga eum illum quasi fugit qui',
 'modi voluptatem quia et saepe inventore sed quo ea debitis explicabo vel perferendis commodi exercitationem sequi eum dolor cupiditate ab molestiae nemo ullam neque hic ipsa cupiditate dolor molestiae neque nam nobis nihil mollitia unde',
 'voluptates quod in ipsum dicta fuga voluptatibus sint consequatur quod optio molestias nostrum repellendus consequatur aliquam fugiat provident omnis minus est quisquam exercitationem eum voluptas fugit quae eveniet perspiciatis assumenda maxime']

我需要知道有多少不同的单词有两倍的字母“o”。例如,单词dolorem有两个字母“o”

目前,我已经创建了distintWordsRDD,它存储文本中包含的所有不同单词,如下所示:

loremWordsRDD = loremRDD.flatMap(lambda x: x.split(' '))

distintWordsMapRDD = loremWordsRDD.map(lambda word: (word,1)).reduceByKey(lambda a,b:a+b)
            
distintWordsRDD=distintWordsMapRDD.keys().distinct()
# Showing 8 first words
print(distintWordsRDD.take(8))

前8个单词的结果是:

['tempora', 'sapiente', 'vitae', 'nisi', 'quidem', 'consectetur', 'perferendis', 'debitis']

我的问题是,我不知道如何从distintWordsRDD中检索包含两个“o”的单词的列表


Tags: lambda单词sedetestautsintqui
3条回答

如果只有一个字符串sentence

results = set(word for word in sentence.split() if word.count('o') == 2)

如果您有一个字符串列表sentences(这是您在问题中显示的):

results = set(
    word
    for sentence in sentences
    for word in sentence.split()
    if word.count('o') == 2
)

我使用set来统一结果

示例中句子列表的输出:

{'odio', 'dolorem', 'dolore', 'doloremque', 'dolor', 'doloribus', 'optio', 'commodi', 'porro', 'dolores'}

如果您需要一个列表,那么只需转换list:results = list(results))中的set即可

以下方面应起作用:

your_text=''.join(your_original_list_of_texts)
result=[i for i in your_text.split() if i.count('o')==2]
print(result)

['dolores', 'dolore', 'dolores', 'dolorem', 'doloribus', 'dolorem', 'odio']

但是,您提供的文本被拆分为许多子文本(“sometext1”、“sometext2”、“sometext3”等),因此需要进行一些额外的工作,以便形成简单的文本格式(“alltext”) 如果您提供输入文本的确切细节,我将调整代码,使其能够在无需额外手动操作的情况下与输入正常工作

我通过以下方法解决了此问题:

results = distintWordsRDD.filter(lambda word: word.count('o')==2)
print (results.collect())
print(results.count())

结果:

['porro', 'odio', 'laboriosam', 'doloremque', 'doloribus', 'dolores', 'dolor', 'corporis', 'commodi', 'optio', 'dolorum', 'dolore', 'dolorem']
13

相关问题 更多 >