在Python中使用LXML解析HTML

2024-05-20 17:32:47 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在分析一个网站

blahblahblah 
<a  href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah 

(其中有很多,我希望所有这些都以某种标记形式出现)。不幸的是,HTML非常大而且有点复杂,所以尝试沿着树向下爬行可能需要一些时间来整理嵌套的元素。有没有简单的方法来找回这个?

谢谢!


Tags: 标记titleis网站notthiswhat形式