使用NLTK处理Python中的字符编码问题

1条回答

网友

1楼 · 发布于 2024-09-28 20:59:13

目前最简单的解决方案似乎是在生成频率分布之前，向要消除的句号集添加另一组字符（unicode_字符）：

punctuation = set(['.', '?', '!', ',', '$', ':', ';', '(',')','-',"`",'\'','"','>>','|','."',',"'])
other_words = set([line.strip() for line in codecs.open('stopwords.txt',encoding='utf8')])
unicode_chars = set([u',\u201d',u'\u2019',u'\u2014',u'\u201c',u'.\u201d',u'\ufffd', u',\ufffd', u'.\ufffd'])
full_stop_set = set(nltk.corpus.stopwords.words('english')) | punctuation | other_words | unicode_chars

然后像以前一样在循环中：

^{pr2}$

它可能不是最漂亮的，但它可以避免在频率分布中考虑到奇怪的特征。在

编程相关推荐

java GWT对话框从不显示帮助
java在简单的MapReduce作业中带来了极大的开销
javacom。mysql。jdbc。例外情况。jdbc4。MySQLIntegrityConstraintViolationException:列不能为null/onetoone映射
如何通过TCP/IP与Java和Labview进行通信，并发送浮点数据缓冲区？
java Apache camel与spring事件基本示例
java如何使我的秒表应用程序在完全关闭后仍能运行？
java Nutch爬网错误输入路径不存在
java是Mapreduce中按值传递还是按引用传递的键？
正则表达式替换java中的特定字符
Java DOM XML解析

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用NLTK处理Python中的字符编码问题

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >