使用Scrapy将新数据从网站拉入现有表

2024-06-16 12:28:13 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个关于Python的粗糙项目。我从网站上提取了我想要的所有数据。但我想从网站中提取新数据到现有表中,而不是在每次更新时从一开始就提取数据。比如说,

+---------------------------+
| ID  |  Name   |   Job     |
+---------------------------+
| 01  |  Maria  |   Doctor  |
+---------------------------+
| 02  |  Silvia |   Teacher |
+---------------------------+
| 03  |  Lora   |   Soldier |
+---------------------------+

随着新的更新,新的数据被添加到网站上。这些数据是:

+-------------------------+
| ID  | Name   | Job      |
+-------------------------+
| 04  | Blanca | Engineer |
+-------------------------+

所以,当我运行代码时,我只想将新数据从网站拉到现有表中。再也没有了

我怎么做


Tags: 数据项目代码nameid网站jobdoctor
1条回答
网友
1楼 · 发布于 2024-06-16 12:28:13

有一种方法可以做到这一点,即使用管道并将数据映射到上一个管道,如果数据库中还没有记录,则插入该记录。就刮痧而言,它完全依赖于选择器。如果上一个和站点上的数据的选择器相同,则在对数据进行爬网时无法区分数据。管道将帮助您根据需要筛选记录

https://docs.scrapy.org/en/latest/topics/item-pipeline.html

相关问题 更多 >