数据结构:Pandas数据帧还是关系数据库?

2024-10-03 06:32:52 发布

您现在位置:Python中文网/ 问答频道 /正文

我想建立一个模型来计算一个参数的值来优化仓库的容量。在

在接收过程中,该参数决定SKU将被存储在何处-作为高机架货架中的palett(更贵)或自动纸盒货架中的纸箱(较便宜)。在

参数基于以下数据设置:

关于所有SKU的总和:

  • 高机架的容量
  • 纸箱货架的容量。在

货架和货架的容量取决于所有SKU的当前库存水平和离开仓库的体积(因为SKU已售出)。在

关于每个SKU和每天的单个值(20000个SKU和365天):

  • 每天收到的此特定SKU的产品数
  • 此特定SKU每天售出的产品数
  • 在未来x天内,此特定SKU的预计产品数量
  • 此特定SKU的自动纸盒货架中已存储的卷

现在,我想知道应该使用哪种数据结构来导入和使用Python中的流程中的数据,因为数据包含4个值,每个值分别为20000个sku和365天。在

我认为我应该使用Pandas数据帧,因为它在构建模型和可视化方面非常强大。但由于表格形式只有一种2D性质,据我所知,我无法为20000个SKU和所有365天的数据建模,因为这是一种更3D的形式。 因此,我想知道我是否必须使用关系数据库,在这个数据库中,上面提到的每个数据集(每个SKU的接收量、每个SKU的销售量、每个SKU的预计销售量、每个SKU的纸箱货架容量)将构成一个表。在

我在这里的一个问题的答案中发现了以下一组问题,我觉得这些问题对回答我的问题很重要。以下是我的答案:

1)数据大小、行数、列数、列类型;您是追加行还是只追加列?在

行数:20000 SKU

列数:如果为每个数据集使用单独的表,则为365列(=天);如果是一个表,则为365*4(365天*每个SKU的接收量、每个SKU的销售量、每个SKU的预计销售量、每个SKU的纸箱货架容量)

列类型:浮点型、布尔型

据我所知,我不是附加数据,而是使用这些数据计算每个SKU的值,然后从底部(SKU的详细数据)到顶部(所有SKU的总和=容量、库存水平)

2)典型操作是什么样子的。E、 对列进行查询以选择一组行和特定的列,然后执行操作(在内存中),创建新列,保存这些列。在

和,减,乘,除,大于,小于,等于。。。在

3)举一个玩具的例子可以让我们提供更具体的建议。 示例:

库存123456:

  • 纸箱货架上有200升存货
  • 今天收到1000升
  • 今天将售出300升
  • 预计x天销量为250升(应在纸箱货架上)

参数设置为600升(如果收货量更大,则放入palett货架,否则放入纸箱货架)

因此,您需要存储以下卷:

  • 库存200升+收到1000升=库存1200升
  • 1200升-售出300升=库存900升
  • 纸箱货架需要250升=剩余650升

当650>;600,250公升存储在纸箱货架上,其他650公升存放在高架货架上

总金额: 收到该SKU后,高货架库存为+650升 库存纸箱shelf是+50升

如果高位货架的容量已经满了,并且+650升是不可能的,则必须重新计算该参数,以使当天的总量符合要求。在

->计算将在接下来的364天进行

4)处理之后,你会怎么做?步骤2是临时的还是可重复的?在

可重复,因为每天都需要这样做

5)输入平面文件:多少个,粗略的总大小(Gb)。这些是如何组织的,例如按记录?每个文件包含不同的字段,还是每个文件都有一些记录,其中包含每个文件中的所有字段?在

我想他们需要按库存单位和天数来组织

6)您是否曾经根据条件选择行(记录)的子集(例如,选择字段A>5的行)?然后再做些什么,还是只选择包含所有记录的字段A、B、C(然后再做些什么)?在

是->;它总是检查容量是否满足;是否需要在纸箱货架上放一些容量

7)您是否“处理”了所有列(分组),或者是否有一个很好的比例可以仅用于报告(例如,您希望保留数据,但在最终结果时间之前不需要明确引入该列)?在

我想,大多数情况下,数据都是经过计算的,所以这不仅仅是为了保存数据

非常感谢您的光临!在


Tags: 文件数据模型参数库存记录仓库容量