用特定数字替换字符串列表中的单词(Python)

2024-06-24 12:58:29 发布

您现在位置:Python中文网/ 问答频道 /正文

我想将100个文本字符串翻译成100个系列,其中每个唯一的单词都由数字表示

我有一本字典,100个文本字符串中的每个唯一单词都有一个对应的数字

我还有一个包含每个文本字符串的列表

我想用文本字符串遍历列表,并在每次字典键中的单词出现在文本字符串中时进行标识,然后用字典中相应的数字替换它

下面的代码是我能做到的。但是使用这种方法,我必须为列表ft中的每个值创建for循环。下面是一个带有伪文本的示例

# Create list with text to translate into numbers
    ft=list(['Consectetur quisquam aliquam quiquia adipisci ut labore ut sit eius etincidunt velit ipsum amet velit amet modi non quiquia quisquam adipisci dolor quiquia etincidunt quisquam dolore adipisci est quiquia quaerat neque consectetur sed non numquam porro aliquam sed voluptatem numquam consectetur magnam modi sit eius adipisci quisquam sed ut dolorem quisquam sit velit quisquam consectetur consectetur porro dolorem quiquia non dolore modi amet tempora etincidunt ut est sit quaerat dolorem consectetur etincidunt tempora velit voluptatem dolorem voluptatem sed modi ipsum labore adipisci tempora ipsum modi est non etincidunt porro sit etincidunt quaerat quisquam magnam quisquam aliquam modi aliquam aliquam est adipisci amet ipsum quaerat adipisci consectetur velit dolor quisquam non adipisci ipsum labore adipisci quisquam quaerat magnam eius voluptatem ut velit velit quaerat adipisci est non velit est labore labore eius magnam eius', 'Magnam aliquam tempora dolorem quaerat non quiquia numquam eius labore tempora ut neque dolor modi eius aliquam numquam quisquam ut sit est eius quisquam porro sed adipisci dolore porro amet eius sit adipisci sit dolore magnam neque sed modi tempora aliquam etincidunt quisquam dolor ipsum ut amet etincidunt consectetur non ipsum quisquam sed ipsum sit tempora consectetur sit consectetur velit etincidunt dolore labore adipisci ut dolor adipisci magnam sed quiquia etincidunt velit quisquam consectetur dolore ipsum modi sed est quiquia eius quisquam magnam voluptatem ut sit ut etincidunt dolore porro modi porro aliquam eius tempora neque porro eius dolorem etincidunt porro dolore quisquam quiquia quisquam quiquia sed quisquam consectetur ipsum ut tempora numquam adipisci'])

# Make dataframe in order to lower and to tokenize so that I can identify unique words

    df_ft = DataFrame(ft,columns=['Value'])
    new_ft =''.join(ft).lower()

    new_ft_token = word_tokenize(new_ft)
    unique=set(new_ft_token)

# Create a unique number and combine it to a dictionary    

    numbers = list(range(1,29))
    
    unique_list = list(unique)
    
    uni_dict = dict(zip(unik_liste, numbers))

# My attempt on a for loop substituting words with numbers 

    new_number_text = []
    
    for k, v in uni_dict.items():
        if k in ft[1]:
            new_number_text.append([k,v])

Tags: sedmodiftipsumutsitconsecteturvelit