BeautifulSoup:get contents[]作为单个字符串

网友

1楼 · 编辑于 2024-09-25 18:15:02

那contents = str(notices)呢？

或者contents = notices.renderContents()，这将隐藏div标记。

网友

2楼 · 编辑于 2024-09-25 18:15:02

您可以使用join()方法：

notices = soup.find("div", {"class": "middlecontent"})
contents = "".join([str(item) for item in notices.contents])

或者，使用生成器表达式：

contents = "".join(str(item) for item in notices.contents)

网友

3楼 · 编辑于 2024-09-25 18:15:02

#!/usr/bin/env python
# coding: utf-8
__author__ = 'spouk'

import BeautifulSoup
import requests


def parse_contents_href(url, url_args=None, check_content_find=None, tag='a'):
    """
    parse href contents url and find some text in href contents [ for example ]
    """
    html = requests.get(url, params=url_args)
    page = BeautifulSoup.BeautifulSoup(html.text)
    alllinks = page.findAll(tag,  href=True)
    result = check_content_find and filter(
        lambda x: check_content_find in x['href'], alllinks) or alllinks
    return result and "".join(map(str, result)) or False


url = 'https://vk.com/postnauka'
print parse_contents_href(url)

相关问题更多 >

编程相关推荐

热门问题

热门文章

BeautifulSoup:get contents[]作为单个字符串

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >