使用beautifulsoup访问未标记的文本

<div class="compContent curvedBottom" id="companyDescription"> <div class="vcard clearfix"> 999 State St Ste 100 Salt Lake City, UT 84114-0002, United States Phone: +1-000-000-000 <a class="url ext" href="http://www.website.com" target="_blank">http://www.website.com</a> </div> </ul> </div>

<div class="compContent curvedBottom" id="companyDescription"> <div class="vcard clearfix"> Albert Buildings 00 Queen Victoria Street London EC4N 4SA London England <a class="url ext" href="http://www.website.com.com" target="_blank">http://www.website.com.com</a> </div> Line of Business Management services, nsk </div>

<div class="compContent curvedBottom" id="companyDescription"> <div class="vcard clearfix"> Alfred-Kärcher-Str. 100 71364 Winnenden Baden-Württemberg Germany Phone: +00-1234567 Fax: +00-1234567 </div> </div>

1条回答

网友

1楼 · 发布于 2024-05-20 00:39:09

因为它只是内没有标记的文本，所以您可以使用

find_all(text=True, recursive=False)

只获取文本（不带标记），而不从嵌套标记（）中获取。这将给出包含文本和一些\n和空格的列表，这样您就可以使用join()创建一个字符串，strip()删除所有{}和空格。在

^{pr2}$

结果：EC4N 4SA

与第二个HTML相同

data = '''<p id="adr">
<span class="street-address">Alfred-Kärcher-Str. 100</span><br/>
                                                71364
                                    <span class="locality">Winnenden</span>
<span class="region">Baden-Württemberg</span>
<br/><span class="country-name">Germany</span>
</p>'''

from bs4 import BeautifulSoup as BS

soup = BS(data, 'html.parser').find('p')

print(''.join(soup.find_all(text=True, recursive=False)).strip())

结果：71364

相关问题更多 >

编程相关推荐

热门问题

热门文章