如何使用lxm处理嵌套表单标记

2024-10-03 02:38:45 发布

您现在位置:Python中文网/ 问答频道 /正文

我想用lxml抓取一些嵌套表单元素的html页面。即使是最简的知识库,我也找不到它们的嵌套标签。在

lxml是否有不关心嵌套表单标记的解析器? 还有其他建议吗?在

如果有必要的话,我会继续使用MinimalSoup。在


Tags: 标记解析器元素表单知识库html页面标签
1条回答
网友
1楼 · 发布于 2024-10-03 02:38:45

怎么样lxml.etree.HTMLParser?那应该比较管用,对吧?在

import urllib2
import lxml.etree as etree
page = urllib2.urlopen(url)
parser = etree.HTMLParser()
tree = etree.parse(page,parser)

你有你的树!在

相关问题 更多 >