如何在斯坦福中文考卷中不把英语分成几个字母

2条回答

网友

1楼 · 编辑于 2024-05-18 12:24:31

在应用Stanford标记器之后，我只需搜索数字或英文字母序列中有空格的任何模式，然后用这种方式删除空格：

re.sub(r'(?<=\w)\s(?=\w)', '', u'\u5982\u4f55 \u767b\u5f55 C o n c u r \u7cfb\u7edf \uff1f\n')

它给出了：

^{pr2}$

网友

2楼 · 编辑于 2024-05-18 12:24:31

我不知道混合语言文本中的标记化，所以我建议使用以下方法：浏览文本，直到找到英文单词；这个单词之前的所有文本都可以用中文标记器标记；英语单词可以作为另一个标记附加；重复。下面是代码示例。在

import re
pat = re.compile("[A-Za-z]+")
for sentence in text:
    sent_tokens = []
    prev_end = 0
    for match in re.finditer(pat, sentence):
        print match.start(0), match.end(0), match.group(0)
        chinese_part = sentence[prev_end:match.start(0)]
        sent_tokens += tokenize(chinese_part)
        sent_tokens.append(match.group(0))
        prev_end = match.end(0)
    last_chinese_part = sentence[prev_end:]
    sent_tokens += tokenize(last_chinese_part)
    print sent_tokens

我认为效率可以与中国的令牌化方法相媲美，因为唯一的开销是由应用regex引起的，而regex实际上只是一个有限状态自动机，起到O（n）的作用。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在斯坦福中文考卷中不把英语分成几个字母

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >