使用Python的ETL进程

2024-10-03 17:15:32 发布

您现在位置:Python中文网/ 问答频道 /正文

  1. 加载CSV文件(使用Python)。你知道吗
  2. 输出行和列的总数。你知道吗
  3. 输出非空行数(按列)。你知道吗
  4. 输出空值的数目(按列)。你知道吗
  5. 输出所有列的空值数。你知道吗
  6. 输出重复行数
    import pandas as pd

    def main():
        df = pd.read_csv(r"C:\Users\aliceoc\.spyder-py3\ProgrammingforBigDataCA\fireAndAmbulance (3).csv")
        print(df)
    main()


    def analysingData(df):
        print("Total number of rows: ",df.shape[0])
        print("Total number of columns",df.shape[1])
        print("Rows with empty columns:")
        for i in range(len(df.index)):
            print("empty column in row", i, df.iloc[i].isnull().sum())
        duplicate = df.duplicated(subset=None).sum()
        print(duplicate)
        print(df.count(axis=0))
        print()
    analysingData(r"C:\Users\aliceoc\.spyder-py3\ProgrammingforBigDataCA\fireAndAmbulance (3).csv")

我想看看行,列,行与空列和重复。有些似乎有效,但其他部分不行。我不知道为什么。你知道吗


Tags: csvdfmaindefpy3userstotalpd