Pandas:未定义df(数据帧)

2024-09-27 19:18:28 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试从xlsx文件加载和编辑数据帧。该文件位于我在变量einlesen中定义的路径中。一旦bug被修复,我想删除一行并将新的数据帧保存在一个新的xlsx文件中的特定路径中

import os
import re
import pandas as pd
import glob
import time

def setwd():
    from pathlib import Path
    import os

    home = str(Path.home())
    
    os.chdir(home + r'\...\...\Staffing Report\Input\...\Raw_Data')
    
    latest = home + r'\...\...\Staffing Report\Input\MyScheduling\Raw_Data'
    
    folders = next(os.walk(latest))[1]
    creation_times = [(folder, os.path.getctime(folder)) for folder in folders]
    creation_times.sort(key=lambda x: x[1])
    
    most_recent = creation_times[-1][0]
    print('test' + most_recent)
    
    os.chdir(latest + '\\' + most_recent + '\\')
    
    print('current cwd is: ' + os.getcwd())
    
    save_dir = home + '\...\...\Staffing Report\Input\MyScheduling\Individual Status All\PBI\\' + 'Individual_Status.xlsx'
    

def rowdrop():
    
    einlesen = os.getcwd()
    print('test einlesen: ' + einlesen)
    
    df = pd.DataFrame()
    df = pd.read_excel('Individual Status.xls', sheet_name = 'Individual Status Raw Data')
    df = pd.DataFrame(df)

#main

setwd()
rowdrop()

df.to_excel(save_dir, index = False)

print(df)

如果我试图运行代码,它始终会声明:

---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
<ipython-input-92-060708f6b065> in <module>
      2 rowdrop()
      3 
----> 4 df.to_excel(save_dir, index = False)
      5 
      6 print(df)

NameError: name 'df' is not defined

Tags: 文件importreportmostdfhomeosstatus
3条回答

您应该在函数rowdrop中返回数据帧。 我想指出,函数的名称可能不是最相关的,因为它还创建并返回数据帧

def rowdrop():
    
    einlesen = os.getcwd()
    print('test einlesen: ' + einlesen)
    
    df = pd.DataFrame()
    df = pd.read_excel('Individual Status.xls', sheet_name = 'Individual Status Raw Data')
    df = pd.DataFrame(df)
    return df

#main

setwd()
df = rowdrop()

得到错误是因为您只在rowdrop函数中定义了df;函数中定义的变量只能在函数中访问,除非您做了一些更改

更改函数以返回df

def rowdrop():
    
    einlesen = os.getcwd()
    print('test einlesen: ' + einlesen)
    
    df = pd.DataFrame()
    df = pd.read_excel('Individual Status.xls', sheet_name = 'Individual Status Raw Data')
    df = pd.DataFrame(df)
    return df

并将函数调用的返回值赋给变量:

df = rowdrop()

另一种被认为是不好的做法是使用global方法使df变量成为全局变量:

def rowdrop():
    global df
    einlesen = os.getcwd()
    print('test einlesen: ' + einlesen)

    df = pd.DataFrame()
    df = pd.read_excel('Individual Status.xls', sheet_name = 'Individual Status Raw Data')
    df = pd.DataFrame(df)

使用上述方法,您不需要将函数调用分配给变量,但请不要使用该方法,请参见Why are global variables evil?

您得到的NameError之所以发生,是因为您从函数rowdrop()外部引用了变量df。您应该在该函数内调用此df.to_excel(save_dir, index = False)

我建议您在Google上搜索“Python中的变量范围”,以查找更多信息

而且,你在那里做了不必要的步骤。使用df=pd.read_excel(…)函数将excel文件加载到数据框中就足够了

def rowdrop():
    
    einlesen = os.getcwd()
    print('test einlesen: ' + einlesen)
    
    df = pd.read_excel('Individual Status.xls', sheet_name = 'Individual Status Raw Data')

然后可以使用df.drop()函数删除所需的行,然后将其与df.to_excel一起保存

请参阅更多:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html

相关问题 更多 >

    热门问题