MindFactory.de的爬虫
mindfactory-crawling的Python项目详细描述
MindFactory.de爬虫程序
这个存储库包含一个用于Mindfactory的爬虫程序,这是一个德国电子商务商店(用于计算机硬件)。爬虫程序提取包含在每个产品页面上的数据,并将擦掉的产品和评论存储在由两个表组成的sqlite数据库中。
每个产品都有以下特性:
- id(sqlite标识符)
- 网址
- 产品名称
- 品牌名称
- 类别(即CPU)
- EAN
- 库存单位
- 售出物品(计数)
- 观看人数(计数)
- RMA报价(百分比)
- 平均评分(从1.0到5.0)
- 运输(可用性信息)
- 价格(欧元)
此外,对于每个产品,所有的评论都被收集并存储在一个单独的sqlite表中。此表中的条目具有以下属性:
- 产品ID(参考产品表中相应的ID)
- 星级(等级,从1到5)
- 文本
- 作者
- 日期(年-月-日)
- 已验证(实际上是在MindFactory购买的产品)
先决条件
- Python3
- 稀薄的
- sqlite3
运行刮刀
scrapy crawl mindfactory_products