从HTML页面中动态提取数据

## tagLister.py from sgmllib import SGMLParser class TAGLister(SGMLParser): def reset(self): SGMLParser.reset(self) self.urls = [] def start_td(self, attrs): CLS = [ v for k, v in attrs if k == 'class' ] if CLS: self.urls.extend(CLS)

1条回答

网友

1楼 · 发布于 2024-05-16 18:33:06

一种选择是切换到lxml.html并使用XPath-结果将是一个列表。。。（而且由于XPath表达式只是一个字符串-它比玩弄类继承要容易得多）

>>> tag = 'a'
>>> attr = 'href'
>>> xpq = '//{}/@{}'.format(tag, attr)
>>> a = '<a href="test-or-something">hello</a><a>No href here</a><a href="something-else">blah</a>'
>>> import lxml.html
>>> lxml.html.fromstring(a).xpath(xpq)
['test-or-something', 'something-else']

如果你必须使用stdlib-那么你可以用HTMLParser做类似的事情

^{pr2}$

编程相关推荐

java JavaFX TableView更新单元格，不更新对象值
在扫描器中使用分隔符的java
java OkHttp 4.9.2，连接无法重用，导致端口耗尽
eclipse中的c JNI：运行Java代码
java是否在出厂的所有硬件设备中都有/mnt/sdcard/Android/data文件夹（或等效文件夹）？
Java，在eclipse中访问资源文件夹中的图像
java为什么Bluemix dashDB操作抛出SqlSyntaxErrorException，SQLCODE=1667？
JavaHtmlUnitWebClient。getPage不处理javascript
Google API认证的java问题
java如何将JSON数组反序列化为Apache beam PCollection<javaObject>

相关问题更多 >

编程相关推荐

热门问题

热门文章

从HTML页面中动态提取数据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >