在课堂上发现的美丽

2024-09-27 21:30:12 发布

您现在位置:Python中文网/ 问答频道 /正文

把文本打印到控制台

    <html>
     <body>
      <p>
       }"
      </p>
      <div class='\"message-container\"' id='\"m154862032\"' >
      ...

但是当我试图提取消息容器div时,我得到了一个空列表

^{pr2}$

Tags: 文本divid消息message列表containerhtml
1条回答
网友
1楼 · 发布于 2024-09-27 21:30:12

HTML格式不正确,属性值中包含嵌入的反斜杠和引号。在搜索类时,必须包括以下引号:

>>> from bs4 import BeautifulSoup
>>> sample = r'''
...     <html>
...      <body>
...       <p>
...        }"
...       </p>
...       <div class='\"message-container\"' id='\"m154862032\"' >
... '''
>>> soup = BeautifulSoup(sample)
>>> soup.find_all('div', class_=r'\"message-container\"')
[<div class='\"message-container\"' id='\"m154862032\"'>
</div>]

我在这里使用了原始字符串文本(r'...'),以避免反斜杠被解释为转义序列;这样就不必将它们加倍。在

相关问题 更多 >

    热门问题