如何获得真正的html页面源代码？

def go_to(link): headers = {'User-Agent': USER_AGENT, 'Accept': ACCEPT, 'Accept-Encoding': ACCEPT_ENCODING, 'Accept-Language': ACCEPT_LANGUAGE, 'Cache-Control': CACHE_CONTROL, 'Connection': CONNECTION, 'Host': HOST} req = urllib2.Request(link, None, headers) response = urllib2.urlopen(req) return response.read()

<font class="spy14">192.3.10.113<script type="text/javascript">document.write("<font class=spy2>:<\/font>"+(Eight7FiveSix^Seven1One)+(FiveZeroTwoOne^Two3Zero)+(Eight7FiveSix^Seven1One)+(Eight7FiveSix^Seven1One))</script></font>

2条回答

网友

1楼 · 编辑于 2024-10-01 15:46:13

最佳解决方案是：

import sys  
from PyQt4.QtGui import *  
from PyQt4.QtCore import *  
from PyQt4.QtWebKit import *  

class Render(QWebPage):  
  def __init__(self, url):  
    self.app = QApplication(sys.argv)  
    QWebPage.__init__(self)  
    self.loadFinished.connect(self._loadFinished)  
    self.mainFrame().load(QUrl(url))  
    self.app.exec_()  

  def _loadFinished(self, result):  
    self.frame = self.mainFrame()  
    self.app.quit()  

url = 'http://webscraping.com'  
r = Render(url)  
html = r.frame.toHtml()

来源：http://webscraping.com/blog/Scraping-JavaScript-webpages-with-webkit/

升级版： 输出类型为QString。如果你想把它转换成字符串使用

^{pr2}$

网友

2楼 · 编辑于 2024-10-01 15:46:13

由于在形成网页时可能会涉及到javascript、^{}调用，为了确保您获得的源代码与在浏览器中看到的相同，您需要使用实际使用浏览器的工具，如^{}：

from selenium import webdriver

browser = webdriver.Firefox()
browser.get(link)

print browser.page_source

相关问题更多 >

编程相关推荐

热门问题

热门文章