为什么通过ORM 5-8x加载SQLAlchemy对象要比通过原始MySQLdb光标加载行慢？问题的回答

为什么通过ORM 5-8x加载SQLAlchemy对象要比通过原始MySQLdb光标加载行慢？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我注意到SQLAlchemy获取（和ORMing）一些数据的速度很慢，使用裸SQL获取数据的速度相当快。首先，我创建了一个包含一百万条记录的数据库： <pre><code>mysql> use foo mysql> describe Foo; +-------+---------+------+-----+---------+-------+ | Field | Type | Null | Key | Default | Extra | +-------+---------+------+-----+---------+-------+ | id | int(11) | NO | PRI | NULL | | | A | int(11) | NO | | NULL | | | B | int(11) | NO | | NULL | | | C | int(11) | NO | | NULL | | +-------+---------+------+-----+---------+-------+ mysql> SELECT COUNT(*) FROM Foo; +----------+ | COUNT(*) | +----------+ | 1000000 | +----------+ mysql> </code></pre> 作为一个粗略的测试，查询所有Foo大约需要2秒： <pre><code>herbert@dev0 ~ $ date; echo 'use foo; select * from Foo;' | mysql -uroot -pxxx > /dev/null; date zo apr 20 18:48:49 CEST 2014 zo apr 20 18:48:51 CEST 2014 </code></pre> 如果我使用MySQLdb在python中执行此操作，大约需要3秒，包括Foo对象的构造： <pre><code>herbert@dev0 ~ $ python BareORM.py query execution time: 0:00:02.198986 total time: 0:00:03.403084 </code></pre> 其输出为： <pre class="lang-py prettyprint-override"><code>#!/usr/bin/python # -*- coding: utf-8 -*- import MySQLdb import sys import time import datetime class Foo: def __init__(self, a, b, c): self.a=a; self.b=b; self.c=c; try: start = datetime.datetime.now() con = MySQLdb.connect('localhost', 'root', 'xxx', 'foo') cur = con.cursor(); cur.execute("""SELECT * FROM Foo LIMIT 1000000""") print "query execution time: ", datetime.datetime.now()-start foos = []; for elem in cur: foos.<a href="https://www.cnpython.com/list/append" class="inner-link">append</a>(Foo(elem[1], elem[2], elem[3])) con.commit() except MySQLdb.Error, e: print "Error %d: %s" % (e.args[0], e.args[1]) sys.exit(1) finally: if con: con.close() print "total time: ", datetime.datetime.now()-start </code></pre> 但是，使用SQLAlchemy来减少样板代码，大约需要25秒来完成相同的工作： <pre><code>herbert@dev0 ~ $ python AlchemyORM.py total time: 0:00:24.649279 </code></pre> 使用此代码： <pre class="lang-py prettyprint-override"><code>import sqlalchemy import datetime import MySQLdb from sqlalchemy import Column, Integer, create_engine from sqlalchemy.ext.declarative import declarative_base from sqlalchemy.orm import sessionmaker, relationship, backref Base = declarative_base() class Foo(Base): __tablename__ = 'Foo' id = Column(Integer, primary_key=True) A = Column(Integer(unsigned=False), nullable=False) B = Column(Integer(unsigned=False), nullable=False) C = Column(Integer(unsigned=False), nullable=False) engine = create_engine('mysql+mysqldb://root:xxx@localhost/foo') Session = sessionmaker(bind=engine) session = Session() start = datetime.datetime.now() foos = session.query(Foo).limit(1000000).all() print "total time: ", datetime.datetime.now()-start </code></pre> 假设SQLAlchemy应该做大致相同的事情，为什么SQLAlchemy的运行速度比裸SQL解决方案慢10倍？我能加快速度吗？ 这是一个更复杂查询的最小工作示例，它使用紧急加载连接多个表。我正在考虑只对一个表进行简单的查询，然后使用字典创建id-&gt；对象映射并整理一对多关系。但是在这样做之前，我想确定SQLAlchemy不能表现得更好，因为从软件设计的角度来看，编写自己的ORM是一个坏主意。嗯，2倍的减速是可以接受的（也许）。 如果您知道其他（更快的）python SQL ORM，或者类似BigTable的解决方案（已经是ORM了），可以在评论中提到它们。 编辑：还尝试了Peewee，结果约15秒 <pre><code>from peewee import * import datetime; database = MySQLDatabase("foo", host="localhost", port=3306, user="root", passwd="xxx") class Foo(Model): id = IntegerField() A = IntegerField() B = IntegerField() C = IntegerField() class Meta: db_table = 'Foo' database = database start = datetime.datetime.now() foos = Foo.select() cnt=0; for i in foos: cnt=cnt+1 print "total time: ", datetime.datetime.now() - start </code></pre> 编辑：作为对Matthias的回应，我尝试在Java中使用Hibernate做同样的事情，结果大约是8到10秒，不是很快，但比25秒快得多。代码，从一些类开始，以一些配置结束： <pre class="lang-java prettyprint-override"><code>package herbert.hibernateorm; import java.util.List; import org.hibernate.Session; import org.hibernate.Transaction; import org.hibernate.SessionFactory; import org.hibernate.cfg.Configuration; public class App { public static void main(String[] args) throws Exception { SessionFactory factory = new Configuration().configure().buildSessionFactory(); Session session = factory.openSession(); Transaction tx = session.beginTransaction(); long start = System.currentTimeMillis(); List foos = session.createQuery("FROM Foo").list(); System.out.println(foos.size()); System.out.printf("total time: %d\n", System.currentTimeMillis() - start); session.close(); } } </code></pre> <pre class="lang-java prettyprint-override"><code>package herbert.hibernateorm; public class Foo { private int id, a, b, c; public Foo() {} public Foo(int A, int B, int C) { this.a=A; this.b=B; this.c=C; } public int getId() { return id; } public void setId(int id) { this.id = id; } public int getA() { return a; } public void setA(int a) { this.a = a; } public int getB() { return b; } public void setB(int b) { this.b = b; } public int getC() { return c; } public void setC(int c) { this.c = c; } } </code></pre> 配置（分别为hibernate.cfg.xml和hibernate.hbm.xml） <pre class="lang-xml prettyprint-override"><code><?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE hibernate-configuration PUBLIC "-//Hibernate/Hibernate Configuration DTD 3.0//EN" "http://hibernate.sourceforge.net/hibernate-configuration-3.0.dtd"> <hibernate-configuration> <session-factory> <property name="hibernate.dialect">org.hibernate.dialect.MySQLDialect</property> <property name="hibernate.connection.driver_class">com.mysql.jdbc.Driver</property> <property name="hibernate.connection.url">jdbc:mysql://localhost:3306/foo?zeroDateTimeBehavior=convertToNull</property> <property name="hibernate.connection.username">root</property> <property name="hibernate.connection.password">xxx</property> <mapping resource="hibernate.hbm.xml"/> </session-factory> </hibernate-configuration> </code></pre> <pre class="lang-xml prettyprint-override"><code><?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE hibernate-mapping PUBLIC "-//Hibernate/Hibernate Mapping DTD 3.0//EN" "http://hibernate.sourceforge.net/hibernate-mapping-3.0.dtd"> <hibernate-mapping> <class name="herbert.hibernateorm.Foo" table="Foo" catalog="foo"> <id name="id" type="int"> <column name="id" /> <generator class="assigned" /> </id> <property name="a" type="int"> <column name="A" not-null="true" /> </property> <property name="b" type="int"> <column name="B" not-null="true" /> </property> <property name="c" type="int"> <column name="C" not-null="true" /> </property> </class> </hibernate-mapping> </code></pre> 最后是在maven中运行的pom文件： <pre><code><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>herbert</groupId> <artifactId>hibernateORM</artifactId> <version>1.0-SNAPSHOT</version> <packaging>jar</packaging> <name>hibernateORM</name> <url>http://maven.apache.org</url> <repositories> <repository> <id>unknown-jars-temp-repo</id> <name>A temporary repository created by NetBeans for libraries and jars it could not identify. Please replace the dependencies in this repository with correct ones and delete this repository.</name> <url>file:${project.basedir}/lib</url> </repository> </repositories> <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> </properties> <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>3.8.1</version> <scope>test</scope> </dependency> <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.21</version> </dependency> <dependency> <groupId>org.hibernate</groupId> <artifactId>hibernate-core</artifactId> <version>4.0.1.Final</version> </dependency> <dependency> <groupId>org.hibernate</groupId> <artifactId>hibernate-entitymanager</artifactId> <version>4.0.1.Final</version> </dependency> <dependency> <groupId>org.hibernate.common</groupId> <artifactId>hibernate-commons-annotations</artifactId> <version>4.0.1.Final</version> </dependency> <dependency> <groupId>nz.ac.waikato.cms.weka</groupId> <artifactId>weka-dev</artifactId> <version>3.7.10</version> </dependency> <dependency> <groupId>commons-configuration</groupId> <artifactId>commons-configuration</artifactId> <version>1.9</version> </dependency> <dependency> <groupId>commons-net</groupId> <artifactId>commons-net</artifactId> <version>3.1</version> <classifier>examples</classifier> </dependency> <dependency> <groupId>com.google.code.gson</groupId> <artifactId>gson</artifactId> <version>2.2.2</version> </dependency> <dependency> <groupId>maven</groupId> <artifactId>maven-jetty-plugin</artifactId> <version>1.1</version> <type>plugin</type> </dependency> <dependency> <groupId>commons-io</groupId> <artifactId>commons-io</artifactId> <version>2.4</version> </dependency> <dependency> <groupId>com.kenai.nbpwr</groupId> <artifactId>org-slf4j-jdk14</artifactId> <version>1.6.1-201106101300</version> <type>nbm</type> </dependency> </dependencies> </project> </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

下面是您的MySQL脚本的SQLAlchemy版本，与MySQLdb的三个版本相比，它在四秒钟内执行： <pre><code>from sqlalchemy import Integer, Column, create_engine, MetaData, Table import datetime metadata = MetaData() foo = Table( 'foo', metadata, Column('id', Integer, primary_key=True), Column('a', Integer(), nullable=False), Column('b', Integer(), nullable=False), Column('c', Integer(), nullable=False), ) class Foo(object): def __init__(self, a, b, c): self.a = a self.b = b self.c = c engine = create_engine('mysql+mysqldb://scott:tiger@localhost/test', echo=True) start = datetime.datetime.now() with engine.connect() as conn: foos = [ Foo(row['a'], row['b'], row['c']) for row in conn.execute(foo.select().limit(1000000)).fetchall() ] print "total time: ", datetime.datetime.now() - start </code></pre> 运行时： <pre><code>total time: 0:00:04.706010 </code></pre> 下面是一个使用ORM完全加载对象行的脚本；通过避免使用yield per一次创建包含所有1M对象的固定列表，这将在SQLAlchemy master（rel 0.9为18秒）中运行13秒： <pre><code>import time from sqlalchemy import Integer, Column, create_engine, Table from sqlalchemy.orm import Session from sqlalchemy.ext.declarative import declarative_base Base = declarative_base() class Foo(Base): __table__ = Table( 'foo', Base.metadata, Column('id', Integer, primary_key=True), Column('a', Integer(), nullable=False), Column('b', Integer(), nullable=False), Column('c', Integer(), nullable=False), ) engine = create_engine('mysql+mysqldb://scott:tiger@localhost/test', echo=True) sess = Session(engine) now = time.time() # avoid using all() so that we don't have the overhead of building # a large list of full objects in memory for obj in sess.query(Foo).yield_per(100).limit(1000000): pass print("Total time: %d" % (time.time() - now)) </code></pre> 然后，我们可以分割这两种方法之间的差异，并使用ORM只加载单个列： <pre><code>for obj in sess.query(Foo.id, Foo.a, Foo.b, Foo.c).yield_per(100).limit(1000000): pass </code></pre> 上述操作将在4秒内再次运行。 与原始MySQLdb游标相比，SQLAlchemy Core的比较更为贴切。如果对单个列使用ORM but查询，在最新版本中大约需要4秒。 在ORM级别，速度问题是因为在Python中创建对象很慢，SQLAlchemy ORM在获取对象时对这些对象应用大量的簿记，这是它履行其使用契约所必需的，包括工作单元、标识映射、紧急加载、集合等 要显著加快查询速度，请获取单个列而不是完整对象。请参见 <a href="http://docs.sqlalchemy.org/en/latest/faq/performance.html#result-fetching-slowness-orm" rel="noreferrer">http://docs.sqlalchemy.org/en/latest/faq/performance.html#result-fetching-slowness-orm</a>描述了这一点。 与PeeWee相比，PW是一个简单得多的系统，功能更少，包括它与身份映射没有任何关系。即使使用PeeWee，只要是一个简单的ORM，它仍然需要15秒，这就证明了与使用纯C的原始MySQLdb fetch相比，cPython确实非常慢 与Java相比，Java VM要比cPython快得多。Hibernate异常复杂，但是Java VM由于JIT而非常快，甚至所有的复杂性都以更快的速度结束。如果要将Python与Java进行比较，请使用Pypy。

为什么通过ORM 5-8x加载SQLAlchemy对象要比通过原始MySQLdb光标加载行慢？

1 个回答

相关Python问题