如何将宽(15000+列)CSV上载到Apache Hbase实例

2024-09-28 01:25:47 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个CSV文件,表示一个大的矩阵,我希望将其上载到apachehbase实例(在AWS EMR上运行,但这不重要)。CSV包含~15000列和~50000行。矩阵的单元格值是整数。你知道吗

CSV如下所示:

ROW_KEY col1 col2 col3 .... col15000
row1 0    1  125  456
row2 23   23  45  ...
row3 ...  ...  ...
...
row50000

我计划将HBase模式保存在一个列族中,每个列(col1、col2等)都作为列限定符。你知道吗

我已经研究过在python脚本中迭代CSV并使用happybase之类的东西上传每一行,但这似乎需要相当长的时间。你知道吗

我已经研究了ImportTSV工具,但该工具似乎需要一个参数来详细说明所有列名,例如:

Dimporttsv.columns=HBASE_ROW_KEY,cf1:name,cf2:exp

在args中详细说明数以万计的列似乎不是一个好的解决方案。你知道吗


Tags: 文件工具csv实例keyaws矩阵整数

热门问题