regexp_tokenize和阿拉伯语tex

import re,string,sys from nltk.tokenize import regexp_tokenize def PreProcess_text(Input): tokens=regexp_tokenize(Input, r'[،؟!.؛]\s*', gaps=True) return tokens H = raw_input('H:') Cleand= PreProcess_text(H) print '\n'.join(Cleand)

1条回答

网友

1楼 · 发布于 2024-10-03 15:33:25

使用raw_input时，符号被编码为字节。在

您需要使用

H.decode('utf8')

你可以保留你的正则表达式：

^{pr2}$

编程相关推荐

java使用userId创建对象列表
如何在Windows7上使用NIO库更改Java中的文件权限
python Java进程执行n秒并打印输出
java将请求从一个WSDL发送到另一个WSDL
java Spring数据JPA Hibernate LazyInitializationException
java Spring Boot Kafka消费者自定义JsonDeserializer，类型信息在yaml/properties中，不带@Bean
java“多对多”标记中的column属性指的是什么？
Groovy对Java类方法和参数的反射
java代码中惊人的错误
传递base64时java Play framework WebDevice activator启动问题

相关问题更多 >

编程相关推荐

热门问题

热门文章

regexp_tokenize和阿拉伯语tex

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >