pandas操作：JSON自动解析为DataFrame

来源：千锋教育

发布人：qyf

时间： 2023-02-24 16:53:15

　　调用API和文档数据库会返回嵌套的JSON对象，当我们使用Python尝试将嵌套结构中的键转换为列时，数据加载到pandas中往往会得到如下结果：

　　df = pd.DataFrame.from_records（results [“ issues”]，columns = [“ key”，“ fields”]）

　　说明：这里results是一个大的字典，issues是results其中的一个键，issues的值为一个嵌套JSON对象字典的列表，后面会看到JSON嵌套结构。

　　问题在于API返回了嵌套的JSON结构，而我们关心的键在对象中确处于不同级别。

　　嵌套的JSON结构张成这样的。

　　而我们想要的是下面这样的。

　　下面以一个API返回的数据为例，API通常包含有关字段的元数据。假设下面这些是我们想要的字段。

　　●key：JSON密钥，在第一级的位置。

　　●summary：第二级的“字段”对象。

　　●status name：第三级位置。

　　●statusCategory name：位于第4个嵌套级别。

　　如上，我们选择要提取的字段在issues列表内的JSON结构中分别处于4个不同的嵌套级别，一环扣一环。

{
  "expand": "schema,names",
  "issues": [
    {
      "fields": {
        "issuetype": {
          "avatarId": 10300,
          "description": "",
          "id": "10005",
          "name": "New Feature",
          "subtask": False
        },
        "status": {
          "description": "A resolution has been taken, and it is awaiting verification by reporter. From here issues are either reopened, or are closed.",
          "id": "5",
          "name": "Resolved",
          "statusCategory": {
            "colorName": "green",
            "id": 3,
            "key": "done",
            "name": "Done",
          }
        },
        "summary": "Recovered data collection Defraglar $MFT problem"
      },
      "id": "11861",
      "key": "CAE-160",
    },
    {
      "fields": {
... more issues],
  "maxResults": 5,
  "startAt": 0,
  "total": 160
}

　　一个不太好的解决方案

　　一种选择是直接撸码，写一个查找特定字段的函数，但问题是必须对每个嵌套字段调用此函数，然后再调用.apply到DataFrame中的新列。

　　为获取我们想要的几个字段，首先我们提取fields键内的对象至列：

df = (
    df["fields"]
    .apply(pd.Series)
    .merge(df, left_index=True, right_index = True)
)

　　从上表看出，只有summary是可用的，issuetype、status等仍然埋在嵌套对象中。

　　下面是提取issuetype中的name的一种方法。

# 提取issue type的name到一个新列叫"issue_type"
df_issue_type = (
    df["issuetype"]
    .apply(pd.Series)
    .rename(columns={"name": "issue_type_name"})["issue_type_name"]
)
df = df.assign(issue_type_name = df_issue_type)

　　像上面这样，如果嵌套层级特别多，就需要自己手撸一个递归来实现了，因为每层嵌套都需要调用一个像上面解析并添加到新列的方法。

　　对于编程基础薄弱的朋友，手撸一个其实还挺麻烦的，尤其是对于数据分析师，着急想用数据的时候，希望可以快速拿到结构化的数据进行分析。

　　下面东哥分享一个pandas的内置解决方案。

　　内置的解决方案

　　pandas中有一个牛逼的内置功能叫 .json_normalize。

　　pandas的文档中提到：将半结构化JSON数据规范化为平面表。

　　前面方案的所有代码，用这个内置功能仅需要3行就可搞定。步骤很简单，懂了下面几个用法即可。

　　●确定我们要想的字段，使用 . 符号连接嵌套对象。

　　●将想要处理的嵌套列表(这里是results["issues"])作为参数放进 .json_normalize 中。

　　●过滤我们定义的FIELDS列表。

FIELDS = ["key", "fields.summary", "fields.issuetype.name", "fields.status.name", "fields.status.statusCategory.name"]
df = pd.json_normalize(results["issues"])

df[FIELDS]