我目前正在处理一个带有字符串的数据帧。我期待着提取位置和财政年度作为单独的列(系列)。是否有一种使用正则表达式的方法:
Filename
KATH FY19 nepal
Nepal BIRATNA FY2020
India DEL FY18
HQ chennai FiscalYear2020
预期:
Filename Location FiscalYear
KATH FY19 nepal KATH FY19
Nepal BIRATNA FY2020 BIRATNA FY2020
India DEL FY18 DEL FY18
HQ chennai FiscalYear2020 chennai FiscalYear2020
使用下一个正则表达式,您可以获得包含数字的单词,您可以看到它的结果here:
如果要通过正则表达式仅查找大写单词,可以尝试下一个:
在python中:
输出:
但在您的示例中,这将选择HQ作为一个位置,因此我将采用更智能的方法,例如使用spacy库实体识别来验证位置或仅获取位置
相关问题 更多 >
编程相关推荐