在Sp中处理CosmosDB的大数据集问题的回答

在Sp中处理CosmosDB的大数据集

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我学习了如何使用spark cosmosdb connector来创建<code>DataFrame</code>，现在我想对DataFrame做点什么。在我操作小数据集合之前一切都很好（或者在read配置中添加额外的<code>custom_query</code>以缩小数据范围）。在 例如，我可以创建一个DF，然后执行<code>df.show()</code>，或者在其上创建一个临时视图，然后执行<code>%%sql select * from c</code>。但是当我尝试做<code>df.count()</code>或<code>%%sql select * from c order by name desc</code>时，我收到一个错误消息：<code>Request rate is large</code>（<a href="https://pastebin.com/E5mAG54y" rel="nofollow noreferrer">Full stacktrace on pastebin</a>）。我考虑将表具体化为hive（<code>df.write.saveAsTable(tableName)</code>），我得到了同样的错误。在 有没有一种方法可以在调用如此重的函数时减少对数据库的请求量？或者是另一种在配置单元中具体化数据的方法，这样我就可以在以后处理它，而不需要一次又一次地通过连接器？这个限制看起来真的很麻烦，所以我无法处理这些数据。在 该集合的roughput为400ru/s，HdInsinght的参数为spark2.2onlinux（hdi3.6），Scala:2.11.8。我正在使用带有pyspark3内核的JupyterNotebook。以下是我使用的全部代码： <pre><code>%%configure -f { "name":"Spark-to-Cosmos_DB_Connector", "jars": ["wasb:///example/jars/1.0.0/azure-cosmosdb-spark_2.2.0_2.11-1.1.0.jar", "wasb:///example/jars/1.0.0/azure-documentdb-1.14.0.jar", "wasb:///example/jars/1.0.0/azure-documentdb-rx-0.9.0-rc2.jar", "wasb:///example/jars/1.0.0/json-20140107.jar", "wasb:///example/jars/1.0.0/rxjava-1.3.0.jar", "wasb:///example/jars/1.0.0/rxnetty-0.4.20.jar"], "conf": { "spark.jars.packages": "com.microsoft.azure:azure-cosmosdb-spark_2.2.0_2.11:1.1.0", "spark.jars.excludes": "org.scala-lang:scala-reflect" } } iotConfig = { "Endpoint" : "https://myDB.documents.azure.com:443/", "Masterkey" : "myKey==", "Database" : "test", "preferredRegions" : "West Europe", "Collection" : "surrogate", "SamplingRation" : "1.0", "schema_samplesize" : "1000", "query_pagesize" : "2147483647" } df = spark.read.format("com.microsoft.azure.cosmosdb.spark").options(**iotConfig).load() df.createOrReplaceTempView("c") #will work df.show() #wont work %%sql select count(*) from c #wont work %%sql select * from c order by name desc #wont work df.count() #wont work df.write.saveAsTable('table') </code></pre> 如有任何建议，我们将不胜感激。提前谢谢。在

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

在Sp中处理CosmosDB的大数据集

1 个回答

相关Python问题