从网站上的产品目录中获取价格数据

2024-10-03 13:20:18 发布

您现在位置:Python中文网/ 问答频道 /正文

我很熟悉urllib,因为我在课堂上用它来解析来自Google的货币转换器的数据,但是现在我想创建一个web scraper,从这个网站nextworth.com获取价格。

正如你所看到的,从一页纸上获取数据(就像你对黄金价格或其他方面的数据一样)并不容易,但是有许多产品和许多问题需要回答才能显示最终价格。这就是它的工作原理:

1.转到站点(http://www.nextworth.com

2.单击产品类别(例如iPhone)http://nextworth.com/search/1/cat/iphones/

3.点击实际产品(例如iPhone 4 16GB ATT)http://nextworth.com/product/293814/cat/iphones/apple_iphone_4_16gb_(black)_-_at&t/

然后你有一系列的问题来给你一个即时的报价。因此,下一步将是

4.开启全功能-是

5.显示屏破裂-否

最后,显示价格。这是我想要刮去和储存的东西。现在我只想得到完美条件下的物品的价格,因为它更容易,但请记住,如果步骤4是否和步骤5是否,或者步骤4-是和步骤5-是,等等,我也会想要价格

所以我想我的问题是,为这个程序编写代码背后的伪代码(逻辑步骤)是什么样的?这样做是可行的,还是要花费大量的代码?我应该先为每一个类别创建几个函数,然后在这些函数中我拥有每一个产品(我觉得这需要一段时间)。还是应该为每个类别和嵌入式函数使用类?

编辑:我想我应该问问Python是否是一个好的语言来完成它,希望在Python中做它是可行的,因为我只知道C++。


Tags: 数据函数代码comhttp产品步骤价格
2条回答

对于一般的网站抓取,有一个很好的webscraping module你可以使用。好在它可以利用QtWebkit模块,这样您甚至可以处理javascript繁重的站点。

尽管我得提醒你这类事情。

你所做的是一个自动化的过程,考虑到你的需求,它看起来好像要达到很多页面。如果你没有从你正在废弃的网站获得的许可,你可能会被他们的服务器阻止,因为他们会耗尽资源,而这些资源可能会吸引他们关心的活生生的人类客户。

在这种情况下,您需要处理某种类型的API。看看这个网站是否有API,因为只要你遵守它们的API规则,它们对自动化流程就更友好了。

web垃圾库要求您设置某种形式的库以及集成开发环境(在您的例子中,您正在考虑为此使用python)。

我们创建了一个webscraping作为服务平台,允许您automate webscraping in a few click。当我们还在创建chrome浏览器扩展时,我们将在本周末发布第一个版本。您只需编写几行JSON,就可以使用我们为您进行web抓取。

相关问题 更多 >