BeautifulSoup4 findAll仅获得10次引用

2024-09-30 22:11:56 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试图用BeautifulSoup4从网站上搜集一些信息。 html如下所示:

    <ul class=results__list-container">
       <li class="results__list-container-item">
           <div class="classname1"> attribute1 </div>
           <div class="classname2"> attribute2 </div>
       </li>
       <li class="results__list-container-item">
           <div class="classname1"> attribute1 </div>
           <div class="classname2"> attribute2 </div>
       </li>
       <li class="results__list-container-item">
           <div class="classname1"> attribute1 </div>
           <div class="classname2"> attribute2 </div>
       </li>
   </ul>

要使用此代码获取所有列表元素,请执行以下操作:

source = requests.get('https://www.xxxxxxxxxxxx').text
soup = BeautifulSoup(source, 'html.parser')
offers_html = soup.find_all("li", {"class": 'results__list-container-item'}, limit=None)

通过检查浏览器中的html,我可以看到这个类出现了50次。 它在前10个实例上运行良好,并使用嵌套的classed打印整个list元素,我能够获得所有需要的属性,但在第10个实例之后,我得到的只是

<li class="results__list-container-item"></li>

有没有办法用所有嵌套类保存所有列表元素


Tags: div元素列表containerhtmlliitemul