我把单词转换成词根,建立了一个语料库,其中包括10万个文本,但每个文本的格式不适合删除停止词
我尝试了“”联接函数,但它为每个字母添加了“”和“[”和“]”
corr=[]
pattern = r'\w*'
for a in range (0,113340):
rew = re.sub(pattern, lambda m: str(my_dictionary.get(m.group(0),
m.group(0))), te.CUST_TXT[a])
corr.append(rew)
上面我将单词转换为词根,结果如下:
print(corr[1111])
['buyur'] ['ben'] ['ben'] ['evet'] ['buyur'] ['evet'] ['aynı']
a=corr[1111]
for aa in a:
print(aa.replace('[','').replace(']','').replace("'",''))
b
u
y
u
r
print(' '.join(corr[1111]))
[ ' b u y u r ' ] [ ' b e n ' ]
我有sl(stopwords列表)并想从corr的每个文本中删除这些单词
我找到了一个解决办法
这给了我每个文本的单词,而不是字母,空格或特殊字符
相关问题 更多 >
编程相关推荐