使用python从网站获取元素，而无需打开浏览器

from selenium import webdriver browser = webdriver.Firefox() browser.get('http://groceries.asda.com/asda-webstore/pages/landing/home.shtml#!product/910000800509') content = browser.page_source print(content[42000:43000]) browser.close()

2条回答

网友

1楼 · 编辑于 2024-10-01 13:38:26

如其他答案所述，此网页需要javascript来呈现内容，因此您不能简单地使用lxml、Beautiful Soup或类似的库来获取和处理页面。但是有一种更简单的方法来获取你想要的信息。在

我注意到您提供的链接以结构化的方式从内部API获取数据。产品编号似乎是基于url的910000800509。如果您查看Chrome dev tools（或浏览器的等效dev tools）中的networking选项卡，您会看到有一个GET请求正在向以下URL发出：http://groceries.asda.com/api/items/view?itemid=910000800509。在

只需使用json和requests模块就可以发出这样的请求：

import json
import requests

url = 'http://groceries.asda.com/api/items/view?itemid=910000800509'
r = requests.get(url)
price = r.json()['items'][0]['price']

print price
£13.00

这还允许您访问有关产品的许多其他信息，因为请求返回一些带有产品详细信息的JSON。在

网友

2楼 · 编辑于 2024-10-01 13:38:26

How could I get the element of interest without the browser opening, or even without a browser at all?

检查完要分析的页面后：

http://groceries.asda.com/asda-webstore/pages/landing/home.shtml#!product/910000800509

我意识到它只在启用javascript时显示内容，基于此，您需要使用real浏览器。在

结论：

如果您需要实现自动化，那么方法是：

selenium

相关问题更多 >

编程相关推荐

热门问题

热门文章