我使用pandasql包对Pandas进行一些数据操作。我的数据帧很大,所以我一直在寻找加快计算速度的方法。一个博客(foundhere)声称pysqldf包要快得多。但是,我不能让它与熊猫数据帧一起工作。在
具体地说,我有以下几点:
from pysqldf import SQLDF
sqldf = SQLDF(globals()) #also tried with locals(), doesn't make a difference
#I know the sql is good, I've used it elsewhere (in R)
result = sqldf.execute("Select * from data where blah")
这里,data
是一个Pandas数据帧,我知道它存在,但是我一直得到错误:
从我的网络搜索(包括上面的链接)可以看出,这个包的通常操作是使用存储在内存中的sqlite数据库。然而,文档(foundhere)使它看起来可以直接用于数据帧,比如pandasql或R的sqldf。在
问题是:如果pysqldf包真的可以这样使用,我如何使它识别我的数据帧?在
我对pysqldf也有同样的问题。也许你应该试试pandasql。我看到了文档,看起来和pysqldf(https://pypi.org/project/pandasql/,https://pypi.org/project/pysqldf/)非常相似。请尝试以下代码:
相关问题 更多 >
编程相关推荐