Python:自然语言处理(NLP)

2024-09-30 10:30:48 发布

您现在位置:Python中文网/ 问答频道 /正文

我在HiveQL数据库中有10亿个字符串。我正在将它们加载到Python中。字符串不是空格分隔的,看起来像:

"mynameisanon"
...
"helloworld"

我想数一数每一串的字数。但首先,我需要一本字典。我不知道如何得到一本单词词典,但假设我有以下词典:

{ hello, world, my, name, is}

然后函数的工作方式如下:

Input:  mynameisanon
Output: 3

Input:  helloworld
Output: 2

最后,我想要一张熊猫桌


Tags: 字符串数据库helloworldinputoutput字典my
1条回答
网友
1楼 · 发布于 2024-09-30 10:30:48

正如我在评论中提到的,在一般情况下,这并不是唯一的,但假设有一本词典解释了这一点:

(没有经过很好的测试):

strings = ["mynameisanon", "helloworld"]

words = ["hello", "world", "my", "name", "is"]

for string in strings:
    count = 0
    max_interval = len(string)
    for interval_length in range(1,max_interval+1):
        for interval_start in range(0, len(string)+1-interval_length):
            interval = string[interval_start:(interval_start+interval_length)]
            if interval in words:
                count += 1
    print(string)
    print(count)

这假设单词可以小到一个字母,长到整个字符串,并检查这些值之间所有长度的单词

相关问题 更多 >

    热门问题