如何在googleappengin中汇总数据

网友

1楼 · 编辑于 2024-06-26 11:22:30

使用mapreduce是正确的方法。正如David建议的那样，计数器是一种选择，但它们并不可靠（它们使用memcache），而且它们也不是为大量并行的计数器而设计的。在

当前的mapreduce有两个问题：首先，get_or_insert每次调用它时都会执行一个数据存储事务。其次，更新事务外部的金额，并第二次异步存储它，从而产生您所关心的并发问题。在

至少在完全支持reduce之前，最好的选择是在事务中在映射器中执行整个更新，如下所示：

def generate_expense_type(rec):
    def _tx():
      expense_type = type.get(name)
      if not expense_type:
        expense_type = type(key_name=name)
      expense_type.total += rec.amount
      expense_type.put()
    db.run_in_transaction(expense_type)

网友

2楼 · 编辑于 2024-06-26 11:22:30

使用MapReduce框架是个好主意。如果使用MapReduce框架提供的计数器，则可以使用多个shard。因此，不必每次修改数据存储，您可以执行以下操作：

yield op.counters.Increment("total_<expense_type_name>", rec.amount)

在MapReduce完成后（希望比只使用一个shard时快得多），然后可以将完成的计数器复制到数据存储实体中。在

网友

3楼 · 编辑于 2024-06-26 11:22:30

MapReduce非常适合离线处理数据，我喜欢David处理计数器的解决方案（+1 upvote）。在

我只想提一下另一个选择：在数据进来时对其进行处理。看看Brett Slatkin在IO 2010中的High Throughput Data Pipelines on App Engine演讲。在

我已经在一个简单的框架（slagg）中实现了该技术，您可能会发现我的grouping with date rollup useful示例。在

相关问题更多 >

编程相关推荐

热门问题

热门文章