2024-09-27 00:18:18 发布
网友
我正在尝试获取文章标记中的所有内容,比如说http://magazine.magix.com/de/5-tipps-fuer-die-fotobearbeitung/
但是,当使用
print soup.article
它只会发展到“…从艺术到艺术再到艺术,再到艺术和艺术。”在
完整代码:
我怎样才能得到一切?在
好了,终于找到了。欢迎来到神奇的刮擦世界。在
在<article>标记中,存在一些</br>标记,这个家伙确实意味着<br/>。在
<article>
</br>
<br/>
总之,它破坏了html流,所以BS很难解析它。在
我是怎么解决的:
from bs4 import BeautifulSoup import requests request_page = requests.get('http://magazine.magix.com/de/5-tipps-fuer-die-fotobearbeitung/', 'html.parser') source = request_page.text source = source.replace('</br>', '<br/>') soup = BeautifulSoup(source, "html.parser") print soup.article
(我将</br>替换为<br/>…)
这是一个很好的刮擦皮带,这种东西很多,相信它:)
好了,终于找到了。欢迎来到神奇的刮擦世界。在
在
<article>
标记中,存在一些</br>
标记,这个家伙确实意味着<br/>
。在总之,它破坏了html流,所以BS很难解析它。在
我是怎么解决的:
(我将
</br>
替换为<br/>
…)这是一个很好的刮擦皮带,这种东西很多,相信它:)
相关问题 更多 >
编程相关推荐