如果列标题是另一列的子字符串，则创建true/false列

import json import pandas as pd import requests url = r"https://data.hud.gov/Housing_Counselor/search?AgencyName=&City=&State=&RowLimit=&Services=&Languages=" response = requests.get(url) if response.status_code == 200: res = response.json() df = pd.DataFrame(res) df.columns = [str(h).upper() for h in list(df)] # # the below line is confusing but it creates a sorted list of all unique languages # languages = [str(s) for s in sorted(list(set((",".join(list(df["LANGUAGES"].unique()))).split(","))))] for language in languages: print(language) df[language] = df.apply(lambda x: language in df.LANGUAGES, axis = 1) for language in languages: print(df[language].value_counts()) print("\n") else: print("\nConnection was unsuccesful: {0}".format(response.status_code))

2条回答

网友

1楼 · 编辑于 2024-09-29 03:38:35

我在this post中找到了以下代码行：

df[language] = df.apply(lambda x: language in df.LANGUAGES, axis = 1)

对于以下两行：

    criteria = lambda row : language in row["LANGUAGES"]
    df[language] = df.apply(criteria, axis =1)

它是有效的

import json
import pandas as pd
import requests

url  = r"https://data.hud.gov/Housing_Counselor/search?AgencyName=&City=&State=&RowLimit=&Services=&Languages="

response = requests.get(url)

if response.status_code == 200:
    res = response.json()
    df = pd.DataFrame(res)
    df.columns = [str(h).upper() for h in list(df)]
    #
    # the below line is confusing but it creates a sorted list of all unique languages
    #
    languages = [str(s) for s in sorted(list(set((",".join(list(df["LANGUAGES"].unique()))).split(","))))]
    for language in languages:
        criteria = lambda row : language in row["LANGUAGES"]
        df[language] = df.apply(criteria, axis =1)
    for language in languages:
        print(df[language].value_counts())
        print("\n")
else:
    print("\nConnection was unsuccesful: {0}".format(response.status_code))

这种线路交换也可以起作用：

for language in languages:
    df[language] = df.LANGUAGES.apply(lambda x: 'True' if language in x else 'False')
    print("{}:{}".format(language, df[df[language] == 'True'].shape[0]))

网友

2楼 · 编辑于 2024-09-29 03:38:35

两步走,

首先，我们分解您的列表并创建一个透视表，以便根据索引重新连接到原始df

s  = df['LANGUAGES'].str.replace("'",'').str.split(',').explode().to_frame()

cols = s['LANGUAGES'].drop_duplicates(keep='first').tolist()

df2 = pd.concat([df, pd.crosstab(s.index, s["LANGUAGES"])[cols]], axis=1).replace(
    {1: True, 0: False}
)
print(df2)
         LANGUAGES   ENG    OTH    RUS    CZE    SPA
0  'ENG, OTH, RUS'  True   True   True  False  False
1            'ENG'  True  False  False  False  False
2  'ENG, CZE, SPA'  True  False  False   True   True

相关问题更多 >

编程相关推荐

热门问题

热门文章