用BeautifulSoup获取标签中的所有内容

2024-09-27 00:18:18 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试获取文章标记中的所有内容,比如说http://magazine.magix.com/de/5-tipps-fuer-die-fotobearbeitung/

但是,当使用

print soup.article

它只会发展到“…从艺术到艺术再到艺术,再到艺术和艺术。”在

完整代码:

^{pr2}$

我怎样才能得到一切?在


Tags: 标记comhttp内容文章de艺术print
1条回答
网友
1楼 · 发布于 2024-09-27 00:18:18

好了,终于找到了。欢迎来到神奇的刮擦世界。在

<article>标记中,存在一些</br>标记,这个家伙确实意味着<br/>。在

总之,它破坏了html流,所以BS很难解析它。在

我是怎么解决的:

from bs4 import BeautifulSoup
import requests

request_page = requests.get('http://magazine.magix.com/de/5-tipps-fuer-die-fotobearbeitung/', 'html.parser')
source = request_page.text
source = source.replace('</br>', '<br/>')
soup = BeautifulSoup(source, "html.parser")
print soup.article

(我将</br>替换为<br/>…)

这是一个很好的刮擦皮带,这种东西很多,相信它:)

相关问题 更多 >

    热门问题