Python中文
首页
教程
问答
标签
搜索
登录
注册
大时间序列数据上不同大小的块
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我需要将一个大数据集导入到pandas dataframe中,以便进行一些数据操作。你知道吗</p> <p>我发现一个很好的方法是:</p> <ul> <li>使用分块加载和处理数据帧大块。破碎一个任务被分解,分别处理不同的部分,然后将它们组合起来。你知道吗</li> </ul> <p>如果我将chuncksize定义为1000:</p> <pre><code>pd.read_sql_query(sql=query, con=engine, chunksize=1000) </code></pre> <p>循环的每次迭代将1000行读入一个数据帧。你知道吗</p> <p>但是,我的数据帧有一个日期列,我需要确保每个块都包含每个产品(SKU列)的整个时间序列(日期列)。你知道吗</p> <pre><code> DATE STORE COD SKU UNITS_SOLD 2018-02-01 HD01 CD 70 539.000 2018-03-01 HD01 CD 70 511.000 2018-04-01 HD01 CD 70 468.000 2018-05-01 HD01 CD 70 447.000 2018-06-01 HD01 CD 70 382.000 2018-07-01 HD01 CD 70 348.000 2018-02-01 HA01 CD 80 539.000 2018-03-01 HA01 CD 80 511.000 2018-04-01 HA01 CD 80 468.000 2018-05-01 HA01 CD 80 447.000 2018-06-01 HA01 CD 80 382.000 2018-07-01 HA01 CD 80 348.000 </code></pre> <p>确保每个区块返回整个产品历史记录的最佳方法是什么? 如果这1000行中有一个产品是不完整的,我想避免分成2块。你知道吗</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>您可能应该在发送的SQL中使用groupby,这意味着您需要遍历SKU的所有可能值。如果您首先在服务器端设置一个视图,该视图以这种方式显式地对数据进行排序,那么您可以使用分块。你知道吗</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
无法使用Django/mongoengine连接到MongoDB(身份验证失败)
4 回答
无法使用Django\u mssql\u后端迁移到外部hos
3 回答
无法使用Django&Python3.4连接到MySql
5 回答
无法使用Django+nginx上载媒体文件
5 回答
无法使用Django1.6导入名称模式
9 回答
无法使用Django1.7和mongodb登录管理站点
3 回答
无法使用Djangoadmin创建项目,进程使用了错误的路径,因为我事先安装了错误的Python
7 回答
无法使用Djangockedi验证CBV中的字段
5 回答
无法使用Djangocketditor上载图像(错误400)
4 回答
无法使用Djangocron进行函数调用
3 回答
无法使用Djangofiler djang上载文件
10 回答
无法使用Djangokronos
10 回答
无法使用Djangomssql provid
8 回答
无法使用Djangomssql连接到带有Django 1.11的MS SQL Server 2016
1 回答
无法使用Djangomssq迁移Django数据库
10 回答
无法使用Djangonox创建用户
7 回答
无法使用Djangopyodb从Django查询SQL Server
7 回答
无法使用Djangopython3ldap连接到ldap
5 回答
无法使用Djangoredis连接到redis
4 回答
无法使用Django中的FK创建新表
7 回答