无法使用beautifulSoup访问某些内容

2024-09-26 18:12:39 发布

您现在位置:Python中文网/ 问答频道 /正文

我在访问这个网页(这是一个出售你的旧东西的法国网站)上遇到了一些问题。 我想知道里面某个项目的访问次数。以下是链接:http://www.kijiji.ca/v-velo-de-route/laval-rive-nord/velo-de-route-time/1280774723

不管怎样,我的代码是:

from bs4 import BeautifulSoup
import lxml
import requests
from fake_useragent import UserAgent


ua = UserAgent()
header = {'user-agent' : ua.chrome}
kjj_page = requests.get("http://www.kijiji.ca/v-velo-de-route/laval-rive-nord/velo-de-route-time/1280774723", headers=header)


soup = BeautifulSoup(kjj_page.content, 'lxml')       # This take two parameters, the file we want to parse and
                                                     # the parser

content = soup.findAll("span", {"class" : "ad-visits"})
print(content)

问题是,在网站上你可以看到有83次访问(屏幕中间用法语写着“访问”),但在我的主机上我看不到这个数字。。。为什么?我怎样才能得到它?在


Tags: fromimporthttptime网站wwwdecontent
2条回答

试试这个选择器:

content = soup.findAll("span", "ad-visits")

关于documentation page还有更多的例子

打开该网站时,如果您打开了Chrome开发工具(或类似工具),您会看到有一个XHR调用这个地址http://www.kijiji.ca/j-vac-inc-get.json。在

如果您将页面ID作为GET参数传递,您将获得访问次数。 以下是该页面的示例:

import requests
from fake_useragent import UserAgent

URL = "http://www.kijiji.ca/v-velo-de-route/laval-rive-nord/velo-de-route-time/1280774723"
URL_ID = URL.split('/')[-1]

ua = UserAgent()
header = {'user-agent' : ua.chrome}
kjj_page = requests.get("http://www.kijiji.ca/j-vac-inc-get.json?adId=%s" % URL_ID, headers=header)

print (kjj_page.json()["numVisits"])

输出当前访问次数:

85

相关问题 更多 >

    热门问题