从复杂的JSON文件中提取信息最有效的方法是什么？

json1 = { "section": { "heading":{"lvl":"A1", "text":"today"}, "paragraph":[ {"color":"green", "text":"yesterday"}, {"color":"purple", "text":"tomorrow"} ] } } json2 = { "paragraph":{"text":"everyday", "color": "black"} }

2条回答

网友

1楼 · 编辑于 2024-09-28 19:33:16

如果您不知道其他任何东西，并且结构可以像您所暗示的那样相当随意，那么您必须访问每个节点并进行检查。这可以通过使用递归的通用方式来实现。下面是一个快速而肮脏的函数来实现它：

In [4]: def extract_text(obj, acc):
    ...:     if isinstance(obj, dict):
    ...:         for k, v in obj.items():
    ...:             if isinstance(v, (dict, list)):
    ...:                 extract_text(v, acc)
    ...:             elif k == "text":
    ...:                 acc.append(v)
    ...:     elif isinstance(obj, list):
    ...:         for item in obj:
    ...:             extract_text(item, acc)
...:

以下是如何使用它：

^{pr2}$

注意，您的问题实际上与JSON没有任何关系，JSON是一种基于文本的数据序列化格式。您已经在处理反序列化的数据和python数据结构。在任何情况下，如果你真的想要你的问题的结果，你可以简单地做：

In [11]: {"json1": ",".join(acc1)}
Out[11]: {'json1': 'yesterday,tomorrow,today'}

或者任何你喜欢加入的分隔符，比如一个简单的空格：

In [12]: {"json1": " ".join(acc1)}
Out[12]: {'json1': 'yesterday tomorrow today'}

网友

2楼 · 编辑于 2024-09-28 19:33:16

如果您对json文件的结构一无所知，我建议您将内容转储并在列表中搜索。一个快速的解决方法如下。它只假设'text'键对应于一个单词条目。在

import pickle
import json

# Open .json file
f = open("myjson.json")
# Load the content
info = json.load(f)
# Dump the content as a list of words
info_list = pickle.dumps(info).split('\n')
# Whenever you see a 'text', collect the second next item
texts = [info_list[i+2][1:] for i,a in enumerate(info_list) if a.find('text')>0]
# Output the result
print texts

每个json文件的输出变成：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章