regexp_tokenize和阿拉伯语tex

2024-10-03 15:33:25 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用^{}从没有任何标点符号的阿拉伯文文本中返回标记:

import re,string,sys
from nltk.tokenize import  regexp_tokenize

def PreProcess_text(Input):
  tokens=regexp_tokenize(Input, r'[،؟!.؛]\s*', gaps=True)
  return tokens

H = raw_input('H:')
Cleand= PreProcess_text(H)
print  '\n'.join(Cleand) 

它工作得很好,但问题是当我试图打印文本时。在

文本ايمان،سعد的输出:

^{pr2}$

但是如果文本是英文的,即使有阿拉伯标点符号,它也会打印出正确的结果。在

文本hi،eman的输出:

     hi
     eman

Tags: text标记文本importreinputstringhi