从正则表达式字典创建列

import os from glob import glob import pandas as pd from os import path import re sample_file = 'C:/Users/951297/Documents/Python Scripts/DD\\Fund_Data.xlsx' dataf = pd.read_excel(sample_file) dataf FUND ID FUND NAME AMOUNT 0 10101 Holdings company A 10000 1 20202 Holdings company B 2000.5 2 30303 Holdings company C 3000

# Create column list of data attributes stackdf= dataf.stack().reset_index() stackdf = stackdf.rename(columns={'level_0':'index','level_1':'fh',0:'attribute'}) # Create a duplicate column of attribute to apply regex stackdf_regex = stackdf.iloc[:,2:].rename(columns = {'attribute':'Data Type'}) # Dictionary of regex to replace values within the 'Data Type' column depending on the attribute repl_dict = {re.compile(r'^[\d]+$'):'Integer', re.compile(r'^[a-zA-Z0-9_ ]*$'): 'String', re.compile(r'[\d]+\.'): 'Float'} #concatenate tables pd.concat([stackdf, stackdf_regex], axis=1)

index fh attribute Data Type 0 0 FUND ID 10101 10101 1 0 FUND NAME Holdings company A Holdings company A 2 0 AMOUNT 10000 10000 3 1 FUND ID 20202 20202 4 1 FUND NAME Holdings company B Holdings company B 5 1 AMOUNT 2000.5 2000.5 6 2 FUND ID 30303 30303 7 2 FUND NAME Holdings company C Holdings company C 8 2 AMOUNT 3000 3000

index fh attribute Data Type 0 0 FUND ID 10101 Integer 1 0 FUND NAME Holdings company A String 2 0 AMOUNT 10000 Integer 3 1 FUND ID 20202 Integer 4 1 FUND NAME Holdings company B String 5 1 AMOUNT 2000.5 Float 6 2 FUND ID 30303 Integer 7 2 FUND NAME Holdings company C String 8 2 AMOUNT 3000 Integer

stackdf_regex = stackdf_regex.replace({'Data Type':repl_dict}, regex=True) pd.concat([stackdf, stackdf_regex], axis=1) index fh attribute Data Type 0 0 FUND ID 10101 10101 1 0 FUND NAME Holdings company A String 2 0 AMOUNT 10000 10000 3 1 FUND ID 20202 20202 4 1 FUND NAME Holdings company B String 5 1 AMOUNT 2000.5 2000.5 6 2 FUND ID 30303 30303 7 2 FUND NAME Holdings company C String 8 2 AMOUNT 3000 3000

1条回答

网友

1楼 · 发布于 2024-10-03 06:27:55

您可以使用^{}，其中每个conditions测试给定正则表达式到Data Type列，使用^{}和choices对应于以下条件：

conditions = [
    df['Data Type'].str.contains(r'^\d+$'), 
    df['Data Type'].str.contains(r'^[\w\s]+$'), 
    df['Data Type'].str.contains(r'^\d+\.\d+$')]

choices = ['Interger', 'String', 'Float']

df['Data Type'] = np.select(conditions, choices, default=None)

# print(df)
   index         fh           attribute Data Type
0      0    FUND ID               10101  Interger
1      0  FUND NAME  Holdings company A    String
2      0     AMOUNT               10000  Interger
3      1    FUND ID               20202  Interger
4      1  FUND NAME  Holdings company B    String
5      1     AMOUNT              2000.5     Float
6      2    FUND ID               30303  Interger
7      2  FUND NAME  Holdings company C    String
8      2     AMOUNT                3000  Interger

相关问题更多 >

编程相关推荐

热门问题

热门文章