从HTML页面中动态提取数据

## tagLister.py from sgmllib import SGMLParser class TAGLister(SGMLParser): def reset(self): SGMLParser.reset(self) self.urls = [] def start_td(self, attrs): CLS = [ v for k, v in attrs if k == 'class' ] if CLS: self.urls.extend(CLS)

1条回答

网友

1楼 · 发布于 2024-05-17 02:38:04

一种选择是切换到lxml.html并使用XPath-结果将是一个列表。。。（而且由于XPath表达式只是一个字符串-它比玩弄类继承要容易得多）

>>> tag = 'a'
>>> attr = 'href'
>>> xpq = '//{}/@{}'.format(tag, attr)
>>> a = '<a href="test-or-something">hello</a><a>No href here</a><a href="something-else">blah</a>'
>>> import lxml.html
>>> lxml.html.fromstring(a).xpath(xpq)
['test-or-something', 'something-else']

如果你必须使用stdlib-那么你可以用HTMLParser做类似的事情

^{pr2}$

编程相关推荐

java将一个节点拖到另一个不运行JavaFX的节点中
java如何在spring boot中创建完全自定义的查询
java Arraylist和ArrayListBlockingQueue之间的区别是什么？
java Weblogic会中断长时间运行的线程吗
java如何调用displayAd（）方法？
使用数组在两个组之间进行java IPL匹配
java如何在Eclipse中的org下创建测试套件。朱尼特
java获取屏幕上任意点的鼠标坐标
正则表达式需要java正则表达式方面的帮助
如何使用Java获取Ram大小和硬盘大小？

相关问题更多 >

编程相关推荐

热门问题

热门文章

从HTML页面中动态提取数据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >