用Django获取随机记录集，是什么影响了性能

def test1(request): start = datetime.datetime.now() result = Record.objects.order_by('?')[:20] l = list(result) # Queryset是惰性的，强制将Queryset转为list end = datetime.datetime.now() return HttpResponse("time: <br/> %s" % (end-start).microseconds/1000)) def test2(request): start = datetime.datetime.now() sample = random.sample(xrange(Record.objects.count()),20) result = [Record.objects.all()[i] for i in sample] l = list(result) end = datetime.datetime.now() return HttpResponse("time: <br/> %s" % (end-start) def test3(request): start = datetime.datetime.now() result = random.sample(Record.objects.all(),20) l = list(result) end = datetime.datetime.now() return HttpResponse("time: <br/> %s" % (end-start)

(1.393) SELECT COUNT(*) FROM `randomrecords_record`; args=() (3.201) SELECT `randomrecords_record`.`id`, `randomrecords_record`.`content` FROM `randomrecords_record` LIMIT 1 OFFSET 4997880; args=() ...20 lines

2条回答

网友

1楼 · 编辑于 2024-10-04 01:22:48

Record.objects.count()被转换成非常简单的SQL查询。在

SELECT COUNT(*) FROM TABLE

Record.objects.all()[0]也被转换成一个非常简单的SQL查询。在

^{pr2}$

Record.objects.all()通常将结果切分以提高性能

SELECT * FROM table LIMIT 20;  // or something similar

list(Record.objects.all())将查询所有数据并将其放入列表数据结构中。在

SELECT * FROM TABLE

因此，每当您将查询集转换为列表时，就会发生代价高昂的情况

在您的示例中，random.sample()将转换为一个列表。（如果我没有错的话）。在

因此，当您执行result = random.sample(Record.objects.all(),n)操作时，它将执行完整的查询集并转换为一个列表，然后随机选择该列表。在

想象一下，如果你有数百万的记录。您要查询并将其存储到一个包含数百万元素的列表中吗？或者您更愿意一个一个地查询

网友

2楼 · 编辑于 2024-10-04 01:22:48

.order_by(?)的问题在于，它实际上是ORDER BY RAND()（或等效的，取决于DB），这基本上必须为每一行创建一个随机数并进行排序。这是一项繁重的工作，需要很多时间。在

另一方面，做Record.objects.all()会迫使你的应用程序下载所有对象，然后从中进行选择。它在数据库方面没有那么重（它将比排序更快），但它在网络和内存上很重。因此，它也会扼杀你的表演。在

所以这就是交易。在

现在情况好多了：

sample = random.sample(xrange(Record.objects.count()),n)
result = [Record.objects.all()[i] for i in sample]

因为它避免了上面提到的所有问题（注意，Record.objects.all()[i]被转换成{}，这取决于DB）。在

但是，由于.count可能很慢（与通常一样：依赖于DB），所以它可能仍然是低效的。在

相关问题更多 >

编程相关推荐

热门问题

热门文章