因此,目前我正试图找出一个特定单词在页面上出现的次数。在
我的Python代码是这样的:
print(len(re.findall(secondAnswer, page)))
0
经过仔细分析,我注意到
print(第二个答案)给了我一个不同的答案“太平洋”
从打印(ascii(secondAnswer))'Paci\ufb01c'
我觉得我的第二个答案很有价值(关于芬德尔(secondAnswer,第页))正在使用“Paci\ufb01c”,因此在该页上找不到任何匹配项。在
有人能告诉我怎么解决这个问题吗?在
谢谢,尼克
Tags:
Unicode字符
fb01
是fi ligature。也就是说,就Python而言,它是一个单一字符,但在显示时显示为两个(并列)字符。在要将连字分解为它们各自的字符,可以使用^{} 。例如:
或者在这个特定的例子中,您可以编写正则表达式来接受连字作为
fi
字符序列的替代,例如使用与非捕获组paci(?:fi|fi)c
的交替。在相关问题 更多 >
编程相关推荐