我希望使用beutifulsoup来提取span
部分中具有特定class
值的文本,以及具有不同class
值的div
部分中的文本,同时保持顺序。在
下面的工作方式有一个例外,即它没有保留顺序[即列表的末尾有所有的div
元素,而不是它们出现在页面中时]
extract = soup.findAll('span', {"class": "value1"})
extract += soup.findAll('div', {"class": "value2"})
注意-这与问题-BeautifulSoup findAll() given multiple classes?相似,但稍有不同,因为我专门在span
和div
代码中查找。在
没有什么可以阻止过滤掉错误的标记。扩展你提到的答案:
过滤器也可以写成一个衬垫:
^{pr2}$顺便说一句,即使这样也可以:
请参阅http://www.crummy.com/software/BeautifulSoup/bs4/doc/#the-name-argument以获取有关什么可以作为查找全部的第一个参数的文档。在
相关问题 更多 >
编程相关推荐