BeautifulGroup在XML b中找不到标记

from bs4 import BeautifulSoup import requests url = 'http://lavagra.livejournal.com/data/rss&count=10&ranked=newest&similar=true' r = requests.get(url) soup = BeautifulSoup(r.content, 'xml') items = soup.find_all('item') # print(items) for item in items: description = item.find('description') print(description) link = description.find('a') print(link)

2条回答

网友

1楼 · 编辑于 2024-09-26 18:21:03

for item in items:
    description = item.find('description')
    # description will retrun a block of text, you should make a new soup based on this text.
    des_soup = BeautifulSoup(description.text, 'lxml')
    link = des_soup.find('a').get('href')
    print(link)

输出：

^{pr2}$

description标记是一个仅包含HTML文本块的单个标记。如果您想在这个HTML文本上使用find()，您应该基于它制作一个新的soup。在

网友

2楼 · 编辑于 2024-09-26 18:21:03

实际上，<description>标记中的内容是用html实体编码的，例如<是{}，因此在解析之前需要对这些实体进行取消转义。您可以使用内置的HTMLParser.HTMLParser().unescape()来完成这项工作。在

import requests
import HTMLParser
from bs4 import BeautifulSoup as soup

response = requests.get('http://lavagra.livejournal.com/data/rss&count=10&ranked=newest&similar=true')
html = soup(HTMLParser.HTMLParser().unescape(response.text), 'lxml')

items = html.find_all('item')

for item in items:
    description = item.find('description')
    print description
    link = description.find('a')
    print link

输出示例：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章