#!/usr/bin/env python
from lxml import html
url = 'http://stackoverflow.com/questions/4710307'
tree = html.parse(url)
path = '//div[@class="user-details"]/a[@href]'
print tree.findtext(path)
# -> Parseltongue
# OR to print text including the text in children
a = tree.find(path)
print a.text_content()
# -> Parseltongue
如果不需要通过XPath实现,可以使用这样的BeautifilSoup库(让
myXml
变量包含页面HTML源):不管怎样,阅读BS文档,它对于一些不需要XPath功能的抓取需求可能非常有用。在
您可以打开html源代码来找到您要查找的确切类。例如,要获取页面上遇到的第一个StackOverflow用户名,可以执行以下操作:
。。。如果你输入“莎士比亚”,它就会返回
^{pr2}$相关问题 更多 >
编程相关推荐