如何查找和存储paritcular属性及其值？

网友

1楼 · 编辑于 2024-09-29 19:29:38

您可以尝试以下简单方法：

>>> html = '''<li>this is li</li>
<li class="c1" data="this is data">ineinieni </li>
<li class="c1" >ineinieni </li>
<li data="this is the data1">ineinieni </li>
<li data="this is the data2">ineinieni </li>
'''
>>> soup = BeautifulSoup(html, 'html.parser')
>>> for li in soup.find_all('li', {'data': True}):
        print(li['data'])    

this is data
this is the data1
this is the data2

或存储它：

>>> data = [x['data'] for x in soup.find_all('li', {'data': True})]
>>> data
['this is data', 'this is the data1', 'this is the data2']

网友

2楼 · 编辑于 2024-09-29 19:29:38

您可以使用bs4对象的__getitem__方法访问数据：

import re
from bs4 import BeautifulSoup as soup
s = """
<li>this is li</li>
<li class="c1" data="this is data">ineinieni </li>
<li class="c1" >ineinieni </li>
<li data="this is the data1">ineinieni </li>
<li data="this is the data2">ineinieni </li>
"""
s = soup(s, 'lxml')
final_data = [re.sub('the\s', '', i['data']) for i in s.find_all('li') if re.findall('data\=', str(i))]

输出：

['this is data', 'this is data1', 'this is data2']

网友

3楼 · 编辑于 2024-09-29 19:29:38

出现错误是因为某些<li>标记没有data属性，这意味着j["data"]是KeyError

要避免这种情况，请使用一种可以过滤掉这些内容的方法进行搜索select是一个好方法；它允许您使用紧凑的CSS选择器语法来查找所需的元素。要仅查找具有<li>属性的data标记，请尝试：

for li in contSoup.select("li[data]"):
    print li["data"]

如Keyur所示，将data=True添加到find_all()是另一种方法

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何查找和存储paritcular属性及其值？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >