如何将单词列表转换为可用于删除非索引词列表的类型

2024-07-04 05:02:34 发布

您现在位置:Python中文网/ 问答频道 /正文

我把单词转换成词根,建立了一个语料库,其中包括10万个文本,但每个文本的格式不适合删除停止词

我尝试了“”联接函数,但它为每个字母添加了“”和“[”和“]”

corr=[]
pattern = r'\w*' 
for a in range (0,113340):
   rew = re.sub(pattern, lambda m: str(my_dictionary.get(m.group(0), 
         m.group(0))), te.CUST_TXT[a])
   corr.append(rew)

上面我将单词转换为词根,结果如下:

print(corr[1111])
['buyur'] ['ben'] ['ben'] ['evet'] ['buyur'] ['evet'] ['aynı']

a=corr[1111]
for aa in a:
   print(aa.replace('[','').replace(']','').replace("'",''))
b
u
y
u
r

print(' '.join(corr[1111]))  
[ ' b u y u r ' ]   [ ' b e n ' ]  

我有sl(stopwords列表)并想从corr的每个文本中删除这些单词


Tags: in文本forgroup单词replaceaapattern
1条回答
网友
1楼 · 发布于 2024-07-04 05:02:34

我找到了一个解决办法

`for a in range(0,113340):
    corr[a] = str(corr2[a]).replace("['","").replace("']","")
    b=str(corr[a]).split(' ')
    b=[word for word in b if not word in sl ]
    b=' '.join(b)
    corr[a]=b`

这给了我每个文本的单词,而不是字母,空格或特殊字符

相关问题 更多 >

    热门问题