在Python中存储命令行的结果以供进一步的数据分析

2024-09-26 22:54:18 发布

您现在位置:Python中文网/ 问答频道 /正文

我要建立一个脚本,将提取PDF文件的某些功能。我对每个文件的提取输出如下:

 obj                    8
 endobj                 8
 stream                 1
 endstream              1
 xref                   1
 trailer                1
 startxref              1
 /Page                  1
 /Encrypt               0

现在我需要为超过1000个文件创建这个结果的数据集。 我的最终数据集应该在这里存储每个实体的数值。 例如:

obj: 8,6,5,2,8,9
endobj:8,5,4,1,1,2,3
...
..
...

一旦我有了这些数据,我计划运行一些统计数据,比如Obj的平均值是多少等等。记住这些,什么应该是实现这一点的最理想的方法。 我计划创建一个表,其中实体将成为行,值将成为列。 我也遇到了numpy,因为我的工作主要是数据分析,但我不确定它是否适合这种情况。 请分享你的建议


Tags: 文件数据功能实体脚本objstreampdf

热门问题