Python BeautifulSoup无法读取div标记

2024-09-30 22:16:36 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图从这个页面为我正在工作的项目获取产品:lazadapage ispection 使用:

from bs4 import BeautifulSoup
import urllib
import re
r = urllib.urlopen("http://www.lazada.co.id/catalog/?q=note+2").read()
soup = BeautifulSoup(r,"lxml")
letters = soup.findAll("span",class_=re.compile("product-card__name"))
print type(letters) 
print letters[0]

在 当我这样做时,我得到以下错误:

^{pr2}$

有什么想法吗?在


Tags: 项目fromimportre产品page页面urllib
1条回答
网友
1楼 · 发布于 2024-09-30 22:16:36

我认为你可能是点击他们的网页太多,在浏览器中浏览,看看网页在你的网络上返回了什么。在

此外,您还可以修改代码,以便检查页面响应头,以确保页面在尝试刮取之前正确返回。我修改了您的代码以显示下面的示例:

from bs4 import BeautifulSoup
import urllib
import re

r = urllib.urlopen("http://www.lazada.co.id/catalog/?q=note+2")
header_code = r.getcode()

if header_code == 200:
    html = r.read()
    soup = BeautifulSoup(html, "lxml")
    letters = soup.findAll("span", {"class" : re.compile("product-card__name")})

    for letter in letters:
        print letter
else:
    print("oops, something went wonky. Page response was: %s"% header_code)

相关问题 更多 >