如何在python中从数据集中删除某些数值?

2024-09-28 18:47:35 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个数据集,我正试图提取基因名称,但它们前面有一个数值(它们的ID),我需要删除的行中也有:

data = pd.read_csv("genes_person1.csv")

我读取了我的数据,其中包含以下输入:

Column 1
153 ADRB1
3486 IGFBP3
9531 BAG3
9612 NCOR2

我一直在尝试获取以下输出:

ADRB1
IGFBP3
BAG3
NCOR2

我研究过类似问题的答案,比如使用切片、.replace、rstrip,但这要么没有做任何事情,要么删除了我需要保留的基因名中的数字。如何删除每行开头的数字?你知道吗


Tags: csv数据名称idreaddata基因数字
3条回答

您可以通过基于空间拆分csv文件并获取第二列,将数据集加载到列中,如下所示:

datatemp = pd.read_csv("genes_person1.csv", sep=' ') data = datatemp.iloc[:, 1]

使用str.split

例如:

import pandas as pd

df = pd.DataFrame({"Column 1": ["153 ADRB1", "3486 IGFBP3", "9531 BAG3", "9612 NCOR2"]})
print(df["Column 1"].str.split().str[1])

输出:

0     ADRB1
1    IGFBP3
2      BAG3
3     NCOR2
Name: Column 1, dtype: object
genename = "153 ADRB1"
print(genename.split(" ")[1])

相关问题 更多 >