刮取：如何在<abbr>标记中获取属性

response = urllib.urlopen('http://www.insiderpages.com/b/3721895833/central-kia-of-irving-irving').read() mo = re.search(r'<div class="rating_box">.*?</div>', response) div = html.fromstring(mo.group(0)) title = div.find("abbr").attrib["title"] print title

2条回答

网友

1楼 · 编辑于 2024-09-29 23:18:26

你试过xpath吗

In [38]: from lxml import etree

In [39]: import urllib2

In [40]: html = etree.fromstring(urllib2.urlopen('http://www.insiderpages.com/b/3721895833/central-kia-of-irving-irving').read(), parser)

In [41]: html.xpath('//abbr')[0].xpath('./@title')
Out[41]: ['3']

网友

2楼 · 编辑于 2024-09-29 23:18:26

Don't use regex to extract data from html.如果您有lxml，请使用它的power（XPath）

>>> import lxml.html as html
>>> page = html.parse("http://www.insiderpages.com/b/3721895833/central-kia-of-irving-irving")
>>> print page.xpath("//div[@class='rating_box']/abbr/@title")
['3']

编程相关推荐

使用SeleniumWebDriver（又称Selenium2.0）JAVA向下滚动鼠标
java获取与消费者组kafka关联的主题列表
java在现实生活中，您什么时候会使用堆栈而不是常规链表，或者使用常规队列而不是优先级队列？
java实际参数列表和形式参数列表的长度不同（但两种长度都是2？）
默认情况下，Lucene（java框架）是否根据术语计算文档的tfidf和余弦相似性？
java编辑XML样式表更改Android中的按钮
java在Eclipse4中从处理程序更新视图
java是节点列表、数组、列表还是其他什么？
java Hibernate查询问题
java Spark在并行化列表时引发ArrayIndexOutOfBoundsException

相关问题更多 >

编程相关推荐

热门问题

热门文章

刮取：如何在<abbr>标记中获取属性

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >