特殊情况下删除标点符号

['esto', 'es', 'un', 'texto', ',', 'para', 'el', 'sr.', 'gómez', '.', 'Esto', ';', 'es', 'una', 'prueba', 'que', 'puedes', 'encontrar', 'en', 'www.google.com','quiero','encontarla..','esta,.', 'quisiera','mejoralo']

from nltk.tokenize import word_tokenize texto= "esto es un texto, para el sr. gómez. Esto; es una prueba que puedes encontrar en www.google.com quisiera encontrarla.." palabras_tokenizadas=(word_tokenize(texto,"spanish")) print(palabras_tokenizadas)

['esto', 'es', 'un', 'texto', 'para', 'el', 'sr.', 'gómez', 'Esto', 'es', 'una', 'prueba', 'que', 'puedes', 'encontrar', 'en', 'www.google.com', 'quisiera', 'encontrarla', 'claro', 'esta', 'quisiera', 'mejorarlo']

1条回答

网友

1楼 · 发布于 2024-09-27 21:28:25

一种方法是使用正则表达式：

>>> import re
>>> rxx = re.compile(r'([^.,]*)([.,]{2,})')     # Extend [.,] as needed (twice);  {2,} means >= 2
>>> a=["encontarla..", "esta,.", "sr.", "texto", "ellipsis...", "infinitecommas" + 32767 * ","]
>>> [rxx.sub(lambda m: m.group(1), word) for word in a]
['encontarla', 'esta', 'sr.', 'texto', 'ellipsis', 'infinitecommas']

nltk非常了解正则表达式，因此您可以让标记器自己应用这个mod

相关问题更多 >

编程相关推荐

热门问题

热门文章