PyQt4 Scrapy实现

QObject::connect: Cannot connect (null)::configurationAdded(QNetworkConfiguration) to QNetworkConfigurationManager::configurationAdded(QNetworkConfiguration) QObject::connect: Cannot connect (null)::configurationRemoved(QNetworkConfiguration) to QNetworkConfigurationManager::configurationRemoved(QNetworkConfiguration) QObject::connect: Cannot connect (null)::configurationChanged(QNetworkConfiguration) to QNetworkConfigurationManager::configurationChanged(QNetworkConfiguration) QObject::connect: Cannot connect (null)::onlineStateChanged(bool) to QNetworkConfigurationManager::onlineStateChanged(bool) QObject::connect: Cannot connect (null)::configurationUpdateComplete() to QNetworkConfigurationManager::updateCompleted()

import sys from PyQt4.QtCore import QUrl from PyQt4.QtGui import QApplication from PyQt4.QtWebKit import QWebPage class Render(QWebPage): def __init__(self, url): self.app = QApplication(sys.argv) QWebPage.__init__(self) self.loadFinished.connect(self._loadFinished) self.mainFrame().load(QUrl(url)) self.app.exec_() def _loadFinished(self, result): self.frame = self.mainFrame() self.app.quit() class PYQTPageRenderor(object): def __init__(self, url): self.url = url def get_html(self): r = Render(self.url) return unicode(r.frame.toHtml())

1条回答

网友

1楼 · 发布于 2024-09-28 20:51:52

如果您想自己做，正确的实现是创建一个使用PyQt处理请求的downlader middleware。它将被scray实例化一次。

不应该那么复杂，只是

在项目的middleware.py文件中创建QTDownloader类
构造函数应该创建QApplication对象。
process_request方法应该执行url加载和HTML获取。请注意，您将返回一个带有HTML字符串的Response对象。
您可以在类的_cleanup方法中进行适当的清理。
最后，激活中间件，将其添加到项目的settings.py文件的DOWNLOADER_MIDDLEWARES变量中。

如果您不想编写自己的解决方案，可以使用现有的中间件使用Selenium进行下载，比如scrapy-webdriver。如果你不想拥有一个可见的浏览器，你可以指示它使用PhantomJS。

编辑1：因此，正如Rejected指出的，正确的方法是使用下载处理程序。想法类似，但是下载应该在download_request方法中进行，并且应该通过将其添加到DOWNLOAD_HANDLERS中来启用。看看WebdriverDownloadHandler的例子。

相关问题更多 >

编程相关推荐

热门问题

热门文章