Python BeautifulSoup find_all with regex与文本不匹配

<a class="nav-link" href="https://cbd420.ch/fr/tous-les-produits/"> Shop </a>

import re html = """<a class="nav-link" href="https://cbd420.ch/fr/tous-les-produits/"> Shop </a>""" soup = BeautifulSoup(html, 'html.parser') prog = re.compile('\s*Shop\s*') print(soup.find_all("a", string=prog)) # Output: []

2条回答

网友

1楼 · 编辑于 2024-06-25 06:00:20

这里的问题是，您要查找的文本位于包含子标记的标记中，并且当标记包含子标记时，string属性为空

您可以在.find调用中使用lambda表达式，因为您正在查找固定字符串，所以可以仅使用'Shop' in t.text条件而不是正则表达式检查：

soup.find(lambda t: t.name == "a" and 'Shop' in t.text)

网友

2楼 · 编辑于 2024-06-25 06:00:20

您正在搜索的文本Shop位于span标记内，因此当您尝试使用正则表达式时，它无法使用正则表达式获取值

您可以尝试使用正则表达式来查找文本，然后查找该文本的父级

import re
html  = """<a class="nav-link" href="https://cbd420.ch/fr/tous-les-produits/">
<span class="cbp-tab-title">
                                Shop <i class="fa fa-angle-down cbp-submenu-aindicator"></i></span>
</a>"""
soup = BeautifulSoup(html, 'html.parser')
print(soup.find(text=re.compile('Shop')).parent.parent)

如果您有BS4.7.1或更高版本，您可以使用以下css选择器

html  = """<a class="nav-link" href="https://cbd420.ch/fr/tous-les-produits/">
<span class="cbp-tab-title">
                                Shop <i class="fa fa-angle-down cbp-submenu-aindicator"></i></span>
</a>"""
soup = BeautifulSoup(html, 'html.parser')
print(soup.select_one('a:contains("Shop")'))

相关问题更多 >

编程相关推荐

热门问题

热门文章