我有多个文档,总共约400GB,我想把它们转换成json格式,以便放到elasticsearch进行分析。在
每个文件大约200 MB。在
原始文件如下所示:
IUGJHHGF@BERLIN:lhfrjy
0t7yfudf@WARSAW:qweokm246
0t7yfudf@CRACOW:Er747474
0t7yfudf@cracow:kui666666
000t7yf@Vienna:1йй2ц2й2цй2цц3у
它的特点不仅仅是英语。key1总是用@分隔,其中city用;或:
在我用代码解析之后:
^{pr2}$所有文件看起来像:
RRS12345 Cracow Sunflowers
RRD12345 Berin Data
解析之后,我希望得到输出:
{
"location_data":[
{
"key1":"RRS12345",
"city":"Cracow",
"description":"Sunflowers"
},
{
"key1":"RRD123dsd45",
"city":"Berlin",
"description":"Data"
},
{
"key1":"RRD123dsds45",
"city":"Berlin",
"description":"1йй2ц2й2цй2цц3у"
}
]
}
我怎样才能快速地将它转换成所需的json格式,而不是只有英文字符?在
输出样本:
重复每一行,形成你的口述
例如:
相关问题 更多 >
编程相关推荐