我想出了下面的办法。我把问题缩小到不能同时捕获1个单词和2个单词的专有名词。在
(1)如果我可以设置一个条件,指示在两个捕获之间进行选择时默认使用较长的单词。在
以及
(2)如果我可以告诉正则表达式只在字符串以一个介词开头时才考虑这个,比如On | At | For。我在玩这样的东西,但没用:
(^On|^at)([A-Z][a-z]{3,15}$|[A-Z][a-z]{3,15}\s{0,1}[A-Z][a-z]{0,5})
我该怎么做1和2?在
我当前的正则表达式
^{pr2}$我想捕捉,阿育王,轮班系列,指南针搭档和肯尼斯科尔
#'On its 25th anniversary, Ashoka',
#'at the Shift Series national conference, Compass Partners and fashion designer Kenneth Cole',
我将使用NLP工具,python最流行的似乎是nltk。正则表达式确实不是正确的方法。。。在nltk网站的首页上有一个例子,链接到前面的答案中,复制粘贴在下面:
实体现在包含根据the Penn treebank标记的单词
不完全正确,但这将匹配您要查找的大多数内容,但
On
除外。在输出:
^{pr2}$然后也许你可以实现一个过滤器来检查这个列表。在
或者因为python很酷:
你可以这样使用它:
给出最终输出:
判断一个词是否因为出现在句子开头而大写,或者它是否是一个专有名词,这个问题并不是那么简单。在
在这种情况下,这是相当困难的,所以如果没有其他标准可以知道专有名词的东西,黑名单,数据库等等,就不会那么容易了。
regex
太棒了,但我不认为它能以任何微不足道的方式在语法层面上解释英语。。。在尽管如此,祝你好运!在
您在这里要做的是自然语言处理中的“命名实体识别”。如果您真的想要一种能够找到专有名词的方法,那么您可能需要考虑加快到命名实体识别。谢天谢地,
nltk
库中有一些易于使用的函数:结果:
^{pr2}$相关问题 更多 >
编程相关推荐