我想找到那些在简历上有职位头衔的人,但他们可能写得不一样,例如:
Marketing Research Coordinator
Market Researching Coordinator
Markets Research Coordinator
Market Researches Coordinator
Marketing Research Coordinator
Markets Researchers Coordinator
Market Researcher Coordinators
Marketing Researcher Coordinators
...
如果我想匹配==
,我不会得到好的结果,词干分析和柠檬化也很难识别这些差异。
另一种选择是在两个字符串(which is discussed in this question)之间使用相似性度量,但这将非常耗时,而且可能不是一种好方法,同样在这种方法中,确定阈值是另一个问题。
聪明人有想法吗
我不接受词干和柠檬化不起作用!您可以标记您的输入。然后获取词干,在营销的情况下,如果语言选择正确(检查词干分析包中的语言选择正确),您将获得市场。您还应该确保在if语句的两个元素上应用词干
如果存在听写问题或细微差异,您可以使用Levenstein包并接受类似于比率T的输入
例如:
结果如下:
the stem of marketing: 'market' (correct)
the stem of marketing research: 'marketing research' (not want we want)
如您所见,如果未应用标记化,则词干分析器将无法按预期工作
我建议将所有这些结合起来(标记化、词干和levenstein)
您可以使用Python包
textdistance
来计算字符串之间的规范化相似性,并且仅当相似性高于某个阈值时才保留它们看看最后两个例子
使用下面的正则表达式模式并检查职务是否匹配
相关问题 更多 >
编程相关推荐