我试图从这个网页(http://www.sacbee.com/statepay/#req=employee%2Fsearch%2Fname%3D%2Fyear%3D2013%2Fdepartment%3DCSU%20Sacramento)中提取csu员工的工资数据。我尝试过使用urlib2和requests库,但是没有一个从网页返回实际的表。我猜原因可能是这个表是由javascript动态生成的。下面是我的代码使用请求。在
from lxml import html
import requests
page = requests.get("http://www.sacbee.com/statepay/#req=employee%2Fsearch%2Fname%3D%2Fyear%3D2013%2Fdepartment%3DCSU%20Sacramento")
tree = html.fromstring(page.text)
name = tree.xpath('//table/tbody/tr/td[2]/text()'
如有任何帮助/意见,我们将不胜感激。在
根据我的评论,这是我的尝试。请注意,我只提取了一行数据。其他一切都由你决定。在
代码:
结果:
^{pr2}$只是快速浏览了一下你提到的网站。这确实是因为表是使用javascript加载的。所以它实际上不是你在脚本中请求的网站的一部分。在
要解决这个问题,您可能需要查看该网站发出的web请求,并找到检索表数据的请求。这也不难做,只是一个麻烦。看看here;类似的问题。希望有帮助!在
相关问题 更多 >
编程相关推荐