在python中从字符串中剥离不可打印字符?

2024-09-30 08:31:16 发布

您现在位置:Python中文网/ 问答频道 /正文

因此,目前我正试图找出一个特定单词在页面上出现的次数。在

我的Python代码是这样的:

print(len(re.findall(secondAnswer, page)))

0

经过仔细分析,我注意到 print(第二个答案)给了我一个不同的答案“太平洋”

从打印(ascii(secondAnswer))'Paci\ufb01c'

我觉得我的第二个答案很有价值(关于芬德尔(secondAnswer,第页))正在使用“Paci\ufb01c”,因此在该页上找不到任何匹配项。在

有人能告诉我怎么解决这个问题吗?在

谢谢,尼克


Tags: 答案代码relenpage页面单词次数
1条回答
网友
1楼 · 发布于 2024-09-30 08:31:16

Unicode字符fb01fi ligature。也就是说,就Python而言,它是一个单一字符,但在显示时显示为两个(并列)字符。在

要将连字分解为它们各自的字符,可以使用^{}。例如:

page = unicodedata.normalize("NFKD", page)

或者在这个特定的例子中,您可以编写正则表达式来接受连字作为fi字符序列的替代,例如使用与非捕获组paci(?:fi|fi)c的交替。在

相关问题 更多 >

    热门问题