擅长:python、mysql、java
<p>我认为你必须明确区分两种方法:</p>
<p>1)统计模型/机器学习,也称为NER模型。当试图弄清楚一个特定的标记或多个连续的标记是否是日期时,将考虑句子的上下文。spaCy有预先构建的NER模型,您可以下载来测试您的特定数据。您需要查找那些拥有<code>ent.label_ == DATE</code>的实体(在<code>doc.ents</code>)中。一旦有了这些实体,就可以通过日期解析器运行它们,以了解实际日期是什么。有关详细信息,请参见<a href="https://stackoverflow.com/a/50794950/7961860">here</a>。在</p>
<p>2)基于规则的实体识别。在这里,您必须自己定义规则,指定日期的外观,例如<code>XX/XX/XXXX</code>,其中<code>X</code>是一个数字。但是,正如user1558604所指出的,如果您想识别日期的不同表示,就必须编写多个不同的规则。您可以找到spaCy基于规则的匹配方法的概述<a href="https://spacy.io/usage/rule-based-matching" rel="nofollow noreferrer">here</a>。在</p>