在Python中用xpath提取标记之间的文本

url = "http://www.bild.de/regional/hamburg/mord/das-denkt-der-presserat-ueber-den-mord-an-unserer-tochter-lisa-41186944.bild.html" req=urllib2.Request(url) tree = lxml.html.fromstring(urllib2.urlopen(req).read()) metric=tree.xpath('//*[@id="jsm_16584"]/ul/li[1]/span') print metric

1条回答

网友

1楼 · 发布于 2024-06-23 19:43:37

urlopen不执行任何脚本，您只需获取原始html，因此如果数据是由javascript生成的，则不会使用此方法呈现。这样的方法应该有效：

import sys  
from PyQt4.QtGui import *  
from PyQt4.QtCore import *  
from PyQt4.QtWebKit import *  
from lxml import html

class Render(QWebPage):  
  def __init__(self, url):  
    self.app = QApplication(sys.argv)  
    QWebPage.__init__(self)  
    self.loadFinished.connect(self._loadFinished)  
    self.mainFrame().load(QUrl(url))  
    self.app.exec_()  

  def _loadFinished(self, result):  
    self.frame = self.mainFrame()  
    self.app.quit()  

url = 'http://www.bild.de/regional/hamburg/mord/das-denkt-der-presserat-ueber-den-mord-an-unserer-tochter-lisa-41186944.bild.html'  
r = Render(url)  
page = r.frame.toHtml()

tree = html.fromstring(page)
metric=tree.xpath('//button[@class="btn-mood-1"]/@data-mood-count')

print(metric)

相关问题更多 >

编程相关推荐

热门问题

热门文章

在Python中用xpath提取标记之间的文本

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >