python3:json数据在被读取后发生了轻微的变化

filename = "../TheTweets/data/short.json" columnName = ['id_str','created_at', 'full_text','in_reply_to_status_id'] data = pd.read_json(filename, orient=columnName) #data = pd.DataFrame(pd.read_json(filename, orient=columnName,encoding="utf-8"),columns=columnName)

1条回答

网友

1楼 · 发布于 2024-09-27 04:29:27

这似乎是一个bug（不要引用我的话），因为pd.read_json隐式地将字符串转换为整数，这是不应该发生的。您可以尝试强制执行dtype并防止发生转换

这就是目前发生在你身上的事情：

In [107]: j
Out[107]: '{"id_str":{"0":"823962574509248514"}}'

In [108]: pd.read_json(j)
Out[108]: 
               id_str
0  823962574509248512

现在，将一个dtype参数传递给read_json并查看区别：

In [109]: pd.read_json(j, dtype={'id_str' : str})
Out[109]: 
               id_str
0  823962574509248514   # note the difference in the last digit

In [110]: _.dtypes
Out[110]: 
id_str    object
dtype: object

如果要强制多个列，请向dtype字典添加更多的键值。如果你想把所有的东西都当作一个字符串，dtype=str就可以了

嗯，这很有希望。考虑到您的示例数据，json_normalize似乎是这里的方法

In [132]: pd.io.json.json_normalize(json.loads(data))
Out[132]: 
                       created_at  \
0  Tue Jan 24 18:36:00 +0000 2017   

                                           full_text              id_str  \
0  @ABC Can I send a DM, I've emailed twice and g...  823962574509248514   

  in_reply_to_status_id  
0                  None

请注意，id_str也可以工作。在您的例子中，您需要调用文件上的json.load，并将传递给函数

相关问题更多 >

编程相关推荐

热门问题

热门文章