基于Python的Stanford中文分词器如何返回没有标点符号的结果

2024-05-18 14:31:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试用Python中的Stanford分词器分割一个中文句子,但目前结果中有标点符号。我想返回没有标点符号的结果,只有单词。最好的办法是什么?我试着在谷歌上搜索答案,但什么也没找到。在


Tags: 答案分词器单词句子标点符号stanford办法
1条回答
网友
1楼 · 发布于 2024-05-18 14:31:15

我认为你最好在文本被分割之后删除标点符号;我相当肯定斯坦福分词器在做它的工作时会从标点符号中得到提示,所以你不会想事先这样做。下面的内容适用于UTF-8文本。对于中文标点,请使用带正则表达式的Zhon库:

import zhon.hanzi
import re
h_regex = re.compile('[%s]' % zhon.hanzi.punctuation)
intxt = # segmented text with punctuation
outtxt = h_regex.sub('', intxt)

可能还需要删除非中文标点符号,具体取决于您是否需要删除:

^{pr2}$

那么你应该是金色的。在

相关问题 更多 >

    热门问题