Python BeautifulSoup解析

<h2><a href="/best-sellers/sj-b9822.html">Spear & Jackson Predator Universal Hardpoint Saw - 22"</a></h2> <p><span class="productlist_mostwanted_rrp"> Was: <span class="strikethrough">£12.52</span></span><span class="productlist_mostwanted_save">Save: £6.57(52%)</span></p> <div class="clear"></div> <p class="productlist_mostwanted_price">Now: £5.95</p>

2条回答

网友

1楼 · 编辑于 2024-09-30 08:20:04

我想你要找的是这样的东西：

from BeautifulSoup import BeautifulSoup
import re

soup = BeautifulSoup(open('prueba.html').read())
item = re.sub('\s+', ' ', soup.h2.a.text)
price = soup.find('p', {'class': 'productlist_mostwanted_price'}).text
price = re.search('\d+\.\d+', price).group(0)

print item, price

输出示例：

Spear & Jackson Predator Universal Hardpoint Saw - 22" 5.95

注意，对于item，正则表达式仅用于删除多余的空白，而对于price则用于捕获数字。在

网友

2楼 · 编辑于 2024-09-30 08:20:04

html = '''
<h2><a href="/best-sellers/sj-b9822.html">Spear & Jackson Predator Universal Hardpoint Saw     - 22</a></h2>
<p><span class="productlist_mostwanted_rrp">    
Was: <span class="strikethrough">&pound;12.52</span></span><span class="productlist_mostwanted_save">Save: &pound;6.57(52%)</span></p>
<div class="clear"></div>
<p class="productlist_mostwanted_price">Now: &pound;5.95</p>
'''

from BeautifulSoup import BeautifulSoup
import re

soup = BeautifulSoup(html)
desc = soup.h2.a.getText()
price_str = soup.find('p', {"class": "productlist_mostwanted_price" }).getText()
price = float(re.search(r'[0-9.]+', price_str).group())

print desc, price

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python BeautifulSoup解析

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >