pd.read_sql方法来计算大型Access数据库中的行数

driver = 'access driver as string' DatabaseLink = 'access database link as string' Name = 'access table name as string' conn = pyodbc.connect(r'Driver={' + driver + '};DBQ=' + DatabaseLink +';') cursor = conn.cursor() AccessSize = cursor.execute('SELECT count(1) FROM '+ Name).fetchone()[0] connection.close()

2条回答

网友

1楼 · 编辑于 2024-09-23 06:30:24

200万不应该花那么长时间。我使用过pd.read_sql（con，sql）如下：

con = connection
sql = """ my sql statement
here"""

table = pd.read_sql(sql=sql, con=con)

你在做什么不同的事吗

在我的例子中，我使用的是一个db2数据库，也许这就是速度更快的原因

网友

2楼 · 编辑于 2024-09-23 06:30:24

从对问题的评论：

Unfortunately the database doesn't have a suitable keys or indexes in any of its columns.

那么您就不能期望数据库有好的性能，因为每一次选择都是一次表扫描

我在网络共享上有一个Access数据库。它包含一个100万行的表，并且绝对没有索引。Access数据库文件本身是42 MiB。当我这样做的时候

t0 = time()
df = pd.read_sql_query("SELECT COUNT(*) AS n FROM Table1", cnxn)
print(f'{time() - t0} seconds')

它耗时75秒，生成45个MiB的网络流量。只需向表中添加一个主键，文件大小就会增加到48 MiB，但同样的代码需要10秒，并生成7 MiB的网络流量

TL；DR：将主键添加到表中，否则将继续受到性能不佳的影响

相关问题更多 >

编程相关推荐

热门问题

热门文章