Azure转录json到Pandasdf

{ "source": "https://batchtranscriptionstore1.blob.core.windows.net/recordings/20210221-1022043b576ef4.wav?fakecredentials123456789", "timestamp": "2020-06-16T09:30:21Z", "durationInTicks": 41200000, "duration": "PT4.12S", "combinedRecognizedPhrases": [ { "channel": 0, "lexical": "hello world", "itn": "hello world", "maskedITN": "hello world", "display": "Hello world." } ], "recognizedPhrases": [ { "recognitionStatus": "Success", "speaker": 1, "channel": 0, "offset": "PT0.07S", "duration": "PT1.59S", "offsetInTicks": 700000, "durationInTicks": 15900000, "nBest": [ { "confidence": 0.898652852, "lexical": "hello world", "itn": "hello world", "maskedITN": "hello world", "display": "Hello world.", "words": [ { "word": "hello", "offset": "PT0.09S", "duration": "PT0.48S", "offsetInTicks": 900000, "durationInTicks": 4800000, "confidence": 0.987572 }, { "word": "world", "offset": "PT0.59S", "duration": "PT0.16S", "offsetInTicks": 5900000, "durationInTicks": 1600000, "confidence": 0.906032 } ] } ] } ] }

2条回答

网友

1楼 · 编辑于 2024-09-30 16:39:47

用record_path试试pd.json_normalize()，然后加入

with open('file.json','r') as f:
    j = json.load(f)
df = pd.json_normalize(j,max_level=1)
df1 = pd.json_normalize(j,max_level=1,record_path=['combinedRecognizedPhrases'])

df2 = df[['source', 'timestamp', 'durationInTicks', 'duration']].join(df1)

网友

2楼 · 编辑于 2024-09-30 16:39:47

根据@Manakin建议的答案和以下[link][1]，我提出了这个解决方案：

with open('file.json','r') as f:
    j = json.load(f)    
zz = pd.json_normalize(j, record_path=['combinedRecognizedPhrases'], meta=['source', 'durationInTicks', 'duration'])

[1]：http://（https://towardsdatascience.com/all-pandas-json-normalize-you-should-know-for-flattening-json-13eae1dfb7dd

相关问题更多 >

编程相关推荐

热门问题

热门文章