在python中从字符串中剥离不可打印字符？ - 问答 - Python中文网

在python中从字符串中剥离不可打印字符？

2024-09-30 08:31:16 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

因此，目前我正试图找出一个特定单词在页面上出现的次数。在

我的Python代码是这样的：

print(len(re.findall(secondAnswer, page)))
0

经过仔细分析，我注意到 print（第二个答案）给了我一个不同的答案“太平洋”

从打印（ascii（secondAnswer））'Paci\ufb01c'

我觉得我的第二个答案很有价值(关于芬德尔（secondAnswer，第页））正在使用“Paci\ufb01c”，因此在该页上找不到任何匹配项。在

有人能告诉我怎么解决这个问题吗？在

谢谢，尼克

Tags：答案代码 re len page 页面单词次数

1条回答

网友

1楼 · 发布于 2024-09-30 08:31:16

Unicode字符fb01是ﬁ ligature。也就是说，就Python而言，它是一个单一字符，但在显示时显示为两个（并列）字符。在

要将连字分解为它们各自的字符，可以使用^{}。例如：

page = unicodedata.normalize("NFKD", page)

或者在这个特定的例子中，您可以编写正则表达式来接受连字作为fi字符序列的替代，例如使用与非捕获组paci(?:fi|ﬁ)c的交替。在

相关问题更多 >

编程相关推荐

热门问题

热门文章