如何将类的方法输出到全局变量中

import sys from PyQt5 import QtCore, QtWidgets, QtWebEngineWidgets import requests from bs4 import BeautifulSoup import bs4 as bs class WebPage(QtWebEngineWidgets.QWebEnginePage): alldatas=[] def __init__(self): super(WebPage, self).__init__() self.loadFinished.connect(self.handleLoadFinished) def start(self, urls): self._urls = iter(urls) self.fetchNext @property def fetchNext(self): try: url = next(self._urls) except StopIteration: return False else: self.load(QtCore.QUrl(url)) return True def processCurrentPage(self, html): url = self.url().toString() # do stuff with html... soup = bs.BeautifulSoup(html, 'html.parser') data = soup.find('div', class_='tablo_dual_board') data1 = data.text data2 = data1.splitlines() self.alldatas+=data2 if not self.fetchNext: QtWidgets.qApp.quit() def handleLoadFinished(self): self.toHtml(self.processCurrentPage) def javaScriptConsoleMessage(self, QWebEnginePage_JavaScriptConsoleMessageLevel, p_str, p_int, p_str_1): # disable javascript error output pass if __name__ == '__main__': # generate some test urls onexurl = "https://1xbahis1.com/en/live/Football/" r = requests.get(onexurl) soup = BeautifulSoup(r.content, "html.parser") income = soup.find_all("ul", {"id":"games_content"}) links = soup.find_all("a", {"class": "c-events__name"}) urls = [] for matchlink in links: urls.append("https://1xbahis1.com/en/"+(matchlink.get("href"))) app = QtWidgets.QApplication(sys.argv) webpage = WebPage() webpage.start(urls) print(webpage.alldatas) sys.exit(app.exec_())

1条回答

网友

1楼 · 发布于 2024-09-28 05:27:47

下面是脚本的一个版本，它应该做你想做的事情。为处理的每个url调用scrape_page函数，并将数据添加到全局records列表中。process_records函数在所有页面都被刮取后被调用一次。可以使用此函数将记录添加到数据库中。你知道吗

import sys
import requests
from bs4 import BeautifulSoup
from PyQt5 import QtCore, QtWidgets, QtWebEngineWidgets

records = []

def scrape_page(url, html):
    print('scrape page:', url)
    soup = BeautifulSoup(html, 'html.parser')
    data = soup.find('div', class_='tablo_dual_board')
    if data is not None:
        records.append(data.text.splitlines())
    else:
        print('error: could not find tablo_dual_board')

def process_records():
    # add record to database ...
    print('process records:', len(records))

def generate_urls():
    onexurl = "https://1xbahis1.com/en/live/Football/"
    reply = requests.get(onexurl)
    soup = BeautifulSoup(reply.content, "html.parser")
    income = soup.find_all("ul", {"id":"games_content"})
    links = soup.find_all("a", {"class": "c-events__name"})
    urls = []
    for matchlink in links:
        urls.append("https://1xbahis1.com/en/"+(matchlink.get("href")))
    return urls

class WebPage(QtWebEngineWidgets.QWebEnginePage):
    def __init__(self):
        super(WebPage, self).__init__()
        self.loadFinished.connect(self.handleLoadFinished)

    def start(self, urls):
        self._urls = iter(urls)
        self.fetchNext()

    def fetchNext(self):
        try:
            url = next(self._urls)
        except StopIteration:
            return False
        else:
            self.load(QtCore.QUrl(url))
        return True

    def processCurrentPage(self, html):
        scrape_page(self.url().toString(), html)
        if not self.fetchNext():
            process_records()
            QtWidgets.qApp.quit()

    def handleLoadFinished(self):
        self.toHtml(self.processCurrentPage)

    def javaScriptConsoleMessage(self, QWebEnginePage_JavaScriptConsoleMessageLevel, p_str, p_int, p_str_1):
        # disable javascript error output
        pass

if __name__ == '__main__':

    app = QtWidgets.QApplication(sys.argv)
    webpage = WebPage()
    webpage.start(generate_urls())
    sys.exit(app.exec_())

相关问题更多 >

编程相关推荐

热门问题

热门文章