我试图从https://raw.githubusercontent.com/denisemauldin/immer/master/index.html中提取表值,但它什么也不返回。我是做错了什么还是别的什么
from lxml import html
import requests
page=requests.get('https://raw.githubusercontent.com/denisemauldin/immer/master/index.html')
tree=html.fromstring(page.content)
print(tree.xpath('//table'))
它返回[]
你很接近,非常接近。您需要了解的是,为了提取文本,您需要准确地告诉XPath它应该如何遍历树并提取信息。从代码中,您只告诉它遍历到
table
节点,您得到的输出[<Element table at 0x794c120>]
是正确的,因为这是该元素的地址下面的代码是显式的,将遍历到给定的标记,并使用
text()
获取元素的文本你应该考虑使用HTML解析器,比如“漂亮的汤”。你可以阅读更多关于here的内容
相关问题 更多 >
编程相关推荐