我有一个CSV文件,表示一个大的矩阵,我希望将其上载到apachehbase实例(在AWS EMR上运行,但这不重要)。CSV包含~15000列和~50000行。矩阵的单元格值是整数。你知道吗
CSV如下所示:
ROW_KEY col1 col2 col3 .... col15000
row1 0 1 125 456
row2 23 23 45 ...
row3 ... ... ...
...
row50000
我计划将HBase模式保存在一个列族中,每个列(col1、col2等)都作为列限定符。你知道吗
我已经研究过在python脚本中迭代CSV并使用happybase之类的东西上传每一行,但这似乎需要相当长的时间。你知道吗
我已经研究了ImportTSV工具,但该工具似乎需要一个参数来详细说明所有列名,例如:
Dimporttsv.columns=HBASE_ROW_KEY,cf1:name,cf2:exp
在args中详细说明数以万计的列似乎不是一个好的解决方案。你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐