如何使用pandas从嵌套JSON数组中提取值

from pandas.io.json import json_normalize as Jnormal import json import pprint, csv import re with open("Ranger_Policies_20190204_195010.json") as file: jsonDF = json.load(file) for item in jsonDF['policies'][0]['policyItems'][0]: print ('{} - {} - {}'.format(jsonDF['users']))

json_data = json.load(file) with open("test.csv", 'w', newline='') as fd: wr = csv.writer(fd) wr.writerow(('Database name', 'Users', 'Description', 'Table')) for policy in json_data['policies']: desc = policy['description'] db_values = policy['resources']['database']['values'] db_tables = policy['resources']['table']['values'] for item in policy['policyItems']: users = item['users'] for dbT in db_tables: for user in users: for db in db_values: _ = wr.writerow((db, user, desc, dbT))```

2条回答

网友

1楼 · 编辑于 2024-06-28 20:27:33

Pandas在这里被过度使用了：csv标准模块就足够了。您只需在策略上迭代以提取描述和数据库值，然后在policyItems上迭代以提取用户：

with open("Ranger_Policies_20190204_195010.json") as file:
    jsonDF = json.load(file)
with open("outputfile.csv", newline='') as fd:
    wr = csv.writer(fd)
    _ = wr.writerow(('Database name', 'Users', 'Description'))
    for policy in js['policies']:
        desc = policy['description']
        db_values = policy['resources']['database']['values']
        for item in policy['policyItems']:
            users = item['users']
            for user in users:
                for db in db_values:
                    if db != '*':
                        _ = wr.writerow((db, user, desc))

网友

2楼 · 编辑于 2024-06-28 20:27:33

这里有一种方法，假设您的json数据在一个名为json_data的变量中

from itertools import product

def make_dfs(data):
    cols = ['db_name', 'user', 'description']

    for item in data.get('policies'):
        description = item.get('description')
        users = item.get('policyItems', [{}])[0].get('users', [None])
        db_name = item.get('resources', {}).get('database', {}).get('values', [None])
        db_name = [name for name in db_name if name != '*']
        prods = product(db_name, users, [description])
        yield pd.DataFrame.from_records(prods, columns=cols)

df = pd.concat(make_dfs(json_data), ignore_index=True)

print(df)

   db_name          user                               description
0    m2_db          hive  Policy for all - database, table, column
1    m2_db  rangerlookup  Policy for all - database, table, column
2    m2_db     ambari-qa  Policy for all - database, table, column
3    m2_db          af34  Policy for all - database, table, column
4    m2_db          g748  Policy for all - database, table, column
5    m2_db          hdfs  Policy for all - database, table, column
6    m2_db          dh10  Policy for all - database, table, column
7    m2_db          gs22  Policy for all - database, table, column
8    m2_db          dh27  Policy for all - database, table, column
9    m2_db          ct52  Policy for all - database, table, column
10   m2_db  livy_pyspark  Policy for all - database, table, column

在Python 3.5.1和{}上测试

相关问题更多 >

编程相关推荐

热门问题

热门文章