报废：如何获取<abbr>标记中的属性

2条回答

网友

1楼 · 编辑于 2024-09-27 19:30:32

你试过xpath吗？在

In [38]: from lxml import etree

In [39]: import urllib2

In [40]: html = etree.fromstring(urllib2.urlopen('http://www.insiderpages.com/b/3721895833/central-kia-of-irving-irving').read(), parser)

In [41]: html.xpath('//abbr')[0].xpath('./@title')
Out[41]: ['3']

网友

2楼 · 编辑于 2024-09-27 19:30:32

Don't use regex to extract data from html.你有lxml，使用它的幂（XPath）。在

>>> import lxml.html as html
>>> page = html.parse("http://www.insiderpages.com/b/3721895833/central-kia-of-irving-irving")
>>> print page.xpath("//div[@class='rating_box']/abbr/@title")
['3']

编程相关推荐

无法在Netbeans 8.2 JDK8u231中创建java Maven项目（Web应用程序）
java如何以设定的时间间隔生成随机数？
java从socket和inputStream的慢速读取
spring SCORM：Java中基于Web的SCORM播放器
Java将函数传递给方法
java绑定通用服务及其实现和子类型
java如何在运行时从选择列表框中动态选择选项？爪哇硒
java Selenium WebDriver什么是“Selenium客户端和WebDriver语言绑定”
elasticsearch需要elasticsearch高级Java客户端更新ByQueryRequest API帮助
JAVA哈希表查找最大值

相关问题更多 >

编程相关推荐

热门问题

热门文章

报废：如何获取<abbr>标记中的属性

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >