在文本的引理化之后,我有一个引理列表。对于这个列表中的每一个元素,我想弄清楚它是一个单词(“猫”,“狗”,“走”,“红”)还是一个非单词(“.”,“rand\u yh4jhdf”,“''”,“100x200”,“42,44,46”,“22:00”,“xxx\uuuuuuu BATMAN\uuuuuuuuuuuxxx”)。
这个问题有简单的解决方法吗?
如何使用Python和NLTK区分word和non-word?你知道吗
升级。(关于单词是什么的问题)我想把我的单子从垃圾中清除。把完全不是一个字的东西去掉。不要碰复杂的边缘情况。你知道吗
Tags:
以下只返回不带数字和标点符号的字符串:
输出:
相关问题 更多 >
编程相关推荐