选择列后选择特定行的大型数据集

2024-09-26 18:09:24 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用的是一个相当大的数据集,其中有许多行,甚至多个行的名称与它们相似。你知道吗

Data

这是我到目前为止一直在使用的代码:

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

df = pd.read_csv("dataset_20001_20180801113759.csv")
df = df.set_index(["Small Molecule HMS LINCS ID"])

Chosen_SmallMoleculeName="10104-101-1"
df2 = df.loc[Chosen_SmallMoleculeName, ["Cell count", "% Apoptotic cells"]]
df3 = df2.loc[Chosen_SmallMoleculeName, "Cell count"]

df4 = df.loc[Chosen_SmallMoleculeName, "Cell count"]
print("Cell count")
print(df4.values)

df5 = df.loc[Chosen_SmallMoleculeName, "% Apoptotic cells"]
print("% Apoptotic cells")
print(df5.values)

这样,它就可以打印出“细胞计数”和“凋亡细胞”的整列,这两列太大了,无法复制和粘贴在这里。从上图中,我想尝试获取第2-7行的特定数据。你知道吗

数据集可以从这里获得:http://lincs.hms.harvard.edu/db/datasets/20001/results

问题1:如何选择第2至7行“细胞计数”和“凋亡细胞”的特定数据?你知道吗

问题2(没有那么重要,但我想知道)有没有可能“动态地”这样做?例如,我不必手动查看每一行以找到唯一的或相关的行,是否可以编写选择要打印的行2-7的代码,但可以直观地选择,比如说第14-19行?我觉得这是在钻研机器学习领域。。。你知道吗

我看过pythonapi,没有发现类似的问题。你知道吗


Tags: 数据代码importdfascountcellloc
1条回答
网友
1楼 · 发布于 2024-09-26 18:09:24

若要检索从27的行,可以使用slicing,因为数组从0开始,所以必须为头减去1,再减去1:

result = df[:6][["Cell count", "% Apoptotic cells"]]

结果是:

          Cell count       % Apoptotic cells
0         576              60.59
1         373              79.09
2         436              56.19
3         654              43.88
4         284              58.10
5         574              41.81

现在,如果你想更透彻地解释一下你想从这个数据集中提取什么属性,我们也可以帮你解决这个问题。

相关问题 更多 >

    热门问题