Python中使用Beautifulsoup4异步HTML解析

2024-09-30 04:27:04 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在制作一个python web scraper脚本。我应该用asyncio来做这个。所以对于异步HTTP请求，我使用AioHTTP。
没关系，但当我尝试制作一个非阻塞应用程序（wait）时，beautifulsoup4将阻止应用程序（因为beauthulsoup4不支持异步）

这就是我尝试过的。在

import asyncio, aiohttp
from bs4 import BeautifulSoup

async def extractLinks(html):
    soup = BeautifulSoup(html, 'html.parser')
    return soup.select(".c-pro-box__title a")

async def getHtml(session, url):
    async with session.get(url) as response:
        return await response.text()

async def loadPage(url):
    async with aiohttp.ClientSession() as session:
        html = await getHtml(session, url)
        links = await extractLinks(html)
        return links

loop = asyncio.get_event_loop()
loop.run_until_complete(loadPage())

extractLinks()将阻止程序流。
所以这有可能使它不阻塞吗？或者除了beauthulsoup4之外，是否还有其他库支持异步？在

Tags： import loop asyncio 应用程序 url async return aiohttp

0条回答

目前没有回答

Python中使用Beautifulsoup4异步HTML解析

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python中使用Beautifulsoup4异步HTML解析

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >