为什么在Python NLTK中标记为“&amp；”

1条回答

网友

1楼 · 发布于 2024-09-28 20:45:28

正如@snakecharmerb在&中提到的，源状态：

# Replace problematic character with numeric character reference.

解决此问题的一种方法是重写ToktokTokenizer实例上的字段，例如：

import re

from nltk.tokenize.toktok import ToktokTokenizer

string = '&& Test & and L&R '

tokenizer = ToktokTokenizer()
tokenizer.AMPERCENT = re.compile('& '), '& '
tokenizer.TOKTOK_REGEXES = [(regex, sub) if sub != '&amp; ' else (re.compile('& '), '& ') for (regex, sub) in
                            ToktokTokenizer.TOKTOK_REGEXES]

result = tokenizer.tokenize(string)
print(result)

输出

['&&', 'Test', '&', 'and', 'L&R']

编程相关推荐

java GWT对话框从不显示帮助
java在简单的MapReduce作业中带来了极大的开销
javacom。mysql。jdbc。例外情况。jdbc4。MySQLIntegrityConstraintViolationException:列不能为null/onetoone映射
如何通过TCP/IP与Java和Labview进行通信，并发送浮点数据缓冲区？
java Apache camel与spring事件基本示例
java如何使我的秒表应用程序在完全关闭后仍能运行？
java Nutch爬网错误输入路径不存在
java是Mapreduce中按值传递还是按引用传递的键？
正则表达式替换java中的特定字符
Java DOM XML解析

相关问题更多 >

编程相关推荐

热门问题

热门文章

为什么在Python NLTK中标记为“&amp；”

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >