下载后,我所有的数据都在文本文件(.txt)中。我有多个这样的文件(至少70000个),我想我会先用cmd中的copy.txt将它们合并成一个mastertext文件。然后,我想分析mastertext文件,以便理想的输出是.csv文件
为了便于分析,需要将数据转换为类似表的结构。每个文件(在我拥有的70000.txt文件中)都以“[”开头,以“]”结尾,每一行新数据都以“{”开头,以“}”结尾,我有多行格式相同的数据。我希望转换后的数据具有诸如“活动ID”之类的标题,以便我可以使用数据透视分析列(就像在excel中所做的那样)。我是编程新手,不确定Python中的哪些库可以帮助我实现我的目标
这是我所拥有的数据的一个例子。(注意——一个文件中只有两行,我有大约70000个这样的文件)
{
"campaignId": "all",
"startDate": "2020-06-11",
"endDate": "2020-06-11",
"device": "Computers",
"network": "Display Network",
"channel": "all",
"accLevelQS": -1.0,
"impressions": 389,
"clicks": 3,
"ctr": 0.0,
"avgCPC": 0.0,
"convValuePerClick": 0.0,
"convValuePerCost": 0.0,
"costConv1PerClick": 0.0,
"convRate1PerClick": 0.0,
"cost": 0.142884,
"conv1PerClick": 0.0,
"totalConvValue": 0.00,
"allConversions": 0.0,
"allConversionValue": 0.00,
"avgPosition": 0.0,
"intr": 3,
"searchImprShare": 0.0,
"contImprShare": 5.0,
"impressionShare": 5.0
},
{
"campaignId": "all",
"startDate": "2020-06-11",
"endDate": "2020-06-11",
"device": "Mobile devices with full browsers",
"network": "Display Network",
"channel": "all",
"accLevelQS": -1.0,
"impressions": 6101,
"clicks": 90,
"ctr": 0.0,
"avgCPC": 0.0,
"convValuePerClick": 0.0,
"convValuePerCost": 0.0,
"costConv1PerClick": 0.0,
"convRate1PerClick": 0.0,
"cost": 4.342799,
"conv1PerClick": 0.0,
"totalConvValue": 0.00,
"allConversions": 0.0,
"allConversionValue": 0.00,
"avgPosition": 0.0,
"intr": 90,
"searchImprShare": 0.0,
"contImprShare": 5.0077566465021217,
"impressionShare": 5.0077566465021217
}
在
{}
中包含的每个文本实际上都是dict
类型。使用pd.DataFrame
可以轻松地将此类型转换为pandas,最后使用to_excel
转换为excel完整的代码可以编写如下:
这是我的
input.json
文件。请注意,我在顶部和底部添加了[and],因为这将为您的数据提供适当的JSON结构下面的代码使用
pandas
库将数据处理为数据帧,然后将其写入CSV文件有关
pd.json_normalize
如何工作的更多信息,您可以参考here要开始使用
pandas
库,可以参考here如果希望从字符串而不是文件加载JSON,可以引用here
要了解有关
glob
的更多信息,您可以参考here相关问题 更多 >
编程相关推荐