用不均匀长度的列表项创建pandas df列？

Index Court Address Address2 City Zip Phone 0 Court 1 123 Court Dr NaN Springfield ... ... 1 Court 2 45 Court Pl PO Box 45 Pawnee ... ... 2 Court 3 1725 Slough Ave NaN Scranton ... ... 3 Court 4 101 Court Ter Unit 321 Eagleton ... ...

3条回答

网友
1楼 · 编辑于 2024-05-17 03:18:52

你可以这样做：
df['Address1'] = df['Address'].str.split(',').str[0] df['Address2'] = df['Address'].str.extract(',(.*),') df['City'] = df['Address'].str.split(',').str[-1]

网友
2楼 · 编辑于 2024-05-17 03:18:52

地址，尤其是那些由人工输入产生的地址可能很棘手。但是，如果您的地址只适合这两种格式，则可以：
注意：如果有一个额外的格式你必须说明，这将打印罪魁祸首。在
def split_address(df): for index,row in df.iterrows(): full_address = df['address'] if full_address.count(',') == 3: split = full_address.split(',') row['address_1'] = split[0] row['address_2'] = split[1] row['city'] = split[2] else if full_address.count(',') == 2: split = full_address.split(',') row['address_1'] = split[0] row['city'] = split[1] else: print("address does not fit known formats {0}".format(full_address))
从本质上讲，有两件事应该对您有所帮助：一个是string.count()函数，它将告诉您字符串中逗号的数量；另一个是您已经找到的将输入拆分成数组的string.split()。您可以引用此数组的部分来将片段分配到正确的列。在

网友
3楼 · 编辑于 2024-05-17 03:18:52

您可以考虑使用包usaddress创建函数。当我需要将地址分成几部分时，这对我非常有帮助：

import usaddress

df = pd.DataFrame(['123 Main St. Suite 100 Chicago, IL', '123 Main St. PO Box 100 Chicago, IL'], columns=['Address'])

然后创建用于分割数据的函数：

^{pr2}$
输出：
Address Address1 Address2 City 0 123 Main St. Suite 100 Chicago, IL 123 Main St. Suite 100 Chicago 1 123 Main St. PO Box 100 Chicago, IL 123 Main St. PO Box 100 Chicago

相关问题更多 >

编程相关推荐

热门问题

热门文章