报废:如何获取<abbr>标记中的属性

2024-09-27 19:30:32 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用lxml和python来浏览页面。该页面的链接是HERE。我现在面临的问题是如何获取标记中的属性。例如页面顶部的3颗金星,它们有一个html

<abbr title="3" class="average rating large star3">★★★☆☆</abbr>

在这里,我想取回这个名字,这样我就知道这个地方有多少颗星星。在

我试过做几件事,包括:

^{pr2}$

但对我不管用。如有帮助,不胜感激。在


Tags: 标记属性heretitle链接html页面名字
2条回答

你试过xpath吗?在

In [38]: from lxml import etree

In [39]: import urllib2

In [40]: html = etree.fromstring(urllib2.urlopen('http://www.insiderpages.com/b/3721895833/central-kia-of-irving-irving').read(), parser)

In [41]: html.xpath('//abbr')[0].xpath('./@title')
Out[41]: ['3']

Don't use regex to extract data from html.你有lxml,使用它的幂(XPath)。在

>>> import lxml.html as html
>>> page = html.parse("http://www.insiderpages.com/b/3721895833/central-kia-of-irving-irving")
>>> print page.xpath("//div[@class='rating_box']/abbr/@title")
['3']

相关问题 更多 >

    热门问题