Dask数据帧是否不能容忍其中的NA值？获取ValueError，无法转换非inite值

ddf_authorized = dd.read_sql_table("cz_transaction_authorized", "mysql+pymysql://user_account:mysqlworld@127.0.0.1:3306/user","id") ddf_mobileuser = dd.read_sql_table("cz_mobile_user", "mysql+pymysql://user_account:mysqlworld@127.0.0.1:3306/user","id") ddf_users = dd.read_sql_table("users", "mysql+pymysql://user_account:mysqlworld@127.0.0.1:3306/user","id") ddf_reader = dd.read_sql_table("reader", "mysql+pymysql://user_account:mysqlworld@127.0.0.1:3306/user","id") ddf_mid = dd.read_sql_table("cz_mid","mysql+pymysql://user_account:mysqlworld@127.0.0.1:3306/user","id")

for x in list(ddf_authorized.columns.values): if ddf_authorized[x].dtype != 'O': ddf_authorized[x] = ddf_authorized[x].fillna(0) else: ddf_authorized[x] = ddf_authorized[x].fillna("-")

更新：我正在研究根本原因

然后，我试着读它dask.read\u csv文件你知道吗

x = dd.read_csv("C:/Users/User/Desktop/Data Science Journey/My Cashlez Work Assets/Insight 16 Desember/reader_table.csv")

如果我运行x.head()，它运行成功，没有任何错误，但是如果我用y.head（）直接从DB读取它，它就不工作了，如下所示：

y = dd.read_sql_table("reader", "mysql+pymysql://user_account:mysqlworld@127.0.0.1:3306/user","id") y["id"] = ddf_reader["reader_id"].astype('int64') y["devicetype_fk"] = ddf_reader["devicetype_fk"].astype('O') y["serial_number"] = ddf_reader["serial_number"].astype('O')

所以也许这是一个read_sql_table()的问题？你知道吗

1条回答

网友

1楼 · 发布于 2024-10-03 19:29:33

Dask可能推断出错误的数据类型：它通过查看顶值来假定一个整数列。然后您会遇到这样一个问题：意外的NA无法转换为int。你知道吗

尝试使用^{} keyword of read_sql_table显式指定列的数据类型（例如float（对于带有nans和infs的数字类型）或object（对于任意混合类型））。你知道吗

您可以传递一个空的df作为meta，例如

meta=pd.DataFrame(columns=['col1', 'col2']).astype({'col1': float})

其中显式定义所需的数据类型{'col1': float}。默认值为object。这似乎需要指定npartitions（作为read_sql_table的关键字参数）来优化dask性能。你知道吗

更新：我正在研究根本原因

相关问题更多 >

编程相关推荐

热门问题

热门文章