当我不需要所有的行和列时，如何使用Pandas with read_*（file）加速文件读取？

start = time.time() couples2015 = pd.read_excel(fileInput) total = time.time() - start #Reloading file, with only some lines and cols start = time.time() couples2015 = pd.read_excel(fileInput, header=4, usecols=0, nrows=10) total = time.time() - start

1条回答

网友

1楼 · 发布于 2024-06-25 23:52:09

如果使用Excel用于Windows，请考虑通过与安装的Excel驱动程序的ODBC连接直接使用Jet/ACE SQL Engine（Windows .dll文件）查询工作簿。这样，每个工作表都充当一个数据库表，典型的SQL语义（JOIN，UNION，WHERE，GROUP BY）是可用的，可以用^{}读取

使用实际列、工作表和范围调整下面的SQL语句

import pyodbc
import pandas as pd

strfile = "C:\Path\To\Workbook.xlsx"

conn = pyodbc.connect(r'Driver={{Microsoft Excel Driver (*.xls, *.xlsx, *.xlsm, *.xlsb)}};DBQ={};'
                      .format(strfile), autocommit=True)    

strSQL = """SELECT Col1, Col2, Col3 
            FROM [Sheet1$A4:C10]
         """ 

df = pd.read_sql(strSQL, conn)

conn.close()

<>对于没有标题的数据，请考虑一个内联Excel查询，它指定在指定范围的第一行上没有标题和数据。

strSQL = """SELECT F1, F2, F3
            FROM [Excel 12.0 Xml;HDR=NO;IMEX=1;Database=C:\Path\To\Same\Workbook.xlsx].[Sheet$A6:L10000]
            WHERE F2 = 'Some Value';
         """

顺便说一下，如果最后一行未知，只需给它一个非常大的数字。查询引擎仅选择已使用的行

相关问题更多 >

编程相关推荐

热门问题

热门文章