在数据框中查找字符串并在新列中存储新值

Data = {'Number': ['Mukul', 'Rohan', 'Mayank', 'Shubham', 'Aakash'], 'Location': ['Saharsanpur', 'MERrs', 'rsAdela', 'aaaadelaa', 'aaa'], 'Pay': [25000, 30000, 35000, 40000, 45000]} df = pd.DataFrame(Data) print(df) Name Location Pay 0 Mukul Saharsanpur 25000 1 Rohan MERrs 30000 2 Mayank rsAdela 35000 3 Shubham aaaadelaa 40000 4 Aakash aaa 45000

Name Location Pay type 0 Mukul Saharsanpur 25000 dbsnp 1 Rohan MERrs 30000 dbsnp 2 Mayank rsAdela 35000 dbsnp 3 Shubham aaaadelaa 40000 deletion 4 Aakash aaa 450

3条回答

网友

1楼 · 编辑于 2024-10-03 17:17:12

你可以不用循环来做。这里有一个方法。可以使用applymap搜索所有列

import pandas as pd
data = {'Number': ['Mukul', 'Rohan', 'Mayank', 
                  'Shubham', 'Aakash'], 
          
        'Location': ['Saharsanpur', 'MERrs', 'rsAdela', 
                     'aaaadelaa', 'aaa'], 
          
        'Pay': [25000, 30000, 35000, 40000, 45000]} 
  
df = pd.DataFrame(data)

df['rs'] = df.astype(str).applymap(lambda x: 'rs' in x).any(1)
df['del'] = df.astype(str).applymap(lambda x: 'del' in x).any(1)

df['type']=''
df.loc[df['rs'] == True, 'type'] = 'dbsnp'
df.loc[df['del'] == True, 'type'] = 'deletion'

df = df.drop(columns=['rs','del'])
print (df)

根据表中的数据，rsAdela既有rs又有del。由于我首先应用rs，然后应用del，因此该行被标记为deletion。您可以选择交换顺序，以决定是将值保留为dbsnp还是deletion

该代码处理所有列，而不考虑数据类型

上述数据的输出为：

    Number     Location    Pay      type
0    Mukul  Saharsanpur  25000     dbsnp
1    Rohan        MERrs  30000     dbsnp
2   Mayank      rsAdela  35000  deletion
3  Shubham    aaaadelaa  40000  deletion
4   Aakash          aaa  45000

网友

2楼 · 编辑于 2024-10-03 17:17:12

此示例可以帮助您：

import pandas as pd
import random

inp = [{'c1':10, 'c2':100}, {'c1':11,'c2':110}, {'c1':12,'c2':120}]
df = pd.DataFrame(inp)

df['newColumn'] = ""
yourCondition = True
for i in range(len(df)):
    # put your condition here
    #
    # if df['Name'].values[i].find("rs") != -1:
    #    df['newColumn'].values[i] = "Found!"
    # else:
    #    df['newColumn'].values[i] = "Not Found!"
    if (yourCondition):
        # now you can update what you want
        df['newColumn'].values[i] = random.randint(0,9)

print(df)

输出

   c1   c2 newColumn
0  10  100         5
1  11  110         7
2  12  120         2

您可以添加如下新列：df['newColumn'] = ""
然后像这样迭代和数据帧：for i in range(len(df)): 然后您可以像这样访问元素：df['newColumn'].values[i]

网友

3楼 · 编辑于 2024-10-03 17:17:12

您可以使用str.contains，正如@Joe Ferndz所说：

# create filter based on your criteria
msk1 = df['Location'].str.contains('rs')
msk2 = df['Location'].str.contains('del')

# only make changes to those that fit the criteria
df.loc[msk1, 'Type'] = 'dbsnp'
df.loc[msk2, 'Type'] = 'deletion'

# if you wish to fill NaN with empty string
df['Type'] = df['Type'].fillna('')

相关问题更多 >

编程相关推荐

热门问题

热门文章