如何使用相同类型的标记刮取html数据

<ul class="important-fields"> <li class=""> Agency Fees: AED 5000 </li> <li class=""> Bedrooms: Studio </li> <li class=""> Bathrooms: 1 </li> <li> </ul>

2条回答

网友

1楼 · 编辑于 2024-09-27 21:30:15

您可以使用Xpath（http://www.w3schools.com/xpath/）在python中使用lxml库从HTML获取数据，您可以在lxml教程（http://lxml.de/tutorial.html）中找到示例

网友

2楼 · 编辑于 2024-09-27 21:30:15

>>> from bs4 import BeautifulSoup
>>> 
>>> html = '''
... <ul class="important-fields">
...     <li class="">
...         <span> Agency Fees: </span>
...         <strong> AED 5000 </strong>
...     </li>
...     <li class="">
...         <span> Bedrooms: </span>
...         <strong> Studio </strong>
...     </li>
...     <li class="">
...         <span> Bathrooms: </span>
...         <strong> 1 </strong>
...     </li>
... </ul>
... '''
>>> 
>>> soup = BeautifulSoup(html)
>>> spans = [x.text.strip() for x in soup.select('ul.important-fields li span')]
>>> strongs = [x.text.strip() for x in soup.select('ul.important-fields li strong')]

>>> spans
[u'Agency Fees:', u'Bedrooms:', u'Bathrooms:']
>>> strongs
[u'AED 5000', u'Studio', u'1']

>>> for name, value in zip(spans, strongs):
...     print('{} {}'.format(name, value))
... 
Agency Fees: AED 5000
Bedrooms: Studio
Bathrooms: 1

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用相同类型的标记刮取html数据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >