Python中文
首页
教程
问答
标签
搜索
登录
注册
在Sp中处理CosmosDB的大数据集
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我学习了如何使用spark cosmosdb connector来创建<code>DataFrame</code>,现在我想对DataFrame做点什么。在我操作小数据集合之前一切都很好(或者在read配置中添加额外的<code>custom_query</code>以缩小数据范围)。在</p> <p>例如,我可以创建一个DF,然后执行<code>df.show()</code>,或者在其上创建一个临时视图,然后执行<code>%%sql select * from c</code>。但是当我尝试做<code>df.count()</code>或<code>%%sql select * from c order by name desc</code>时,我收到一个错误消息:<code>Request rate is large</code>(<a href="https://pastebin.com/E5mAG54y" rel="nofollow noreferrer">Full stacktrace on pastebin</a>)。我考虑将表具体化为hive(<code>df.write.saveAsTable(tableName)</code>),我得到了同样的错误。在</p> <p>有没有一种方法可以在调用如此重的函数时减少对数据库的请求量?或者是另一种在配置单元中具体化数据的方法,这样我就可以在以后处理它,而不需要一次又一次地通过连接器?这个限制看起来真的很麻烦,所以我无法处理这些数据。在</p> <p>该集合的roughput为400ru/s,HdInsinght的参数为spark2.2onlinux(hdi3.6),Scala:2.11.8。我正在使用带有pyspark3内核的JupyterNotebook。以下是我使用的全部代码:</p> <pre><code>%%configure -f { "name":"Spark-to-Cosmos_DB_Connector", "jars": ["wasb:///example/jars/1.0.0/azure-cosmosdb-spark_2.2.0_2.11-1.1.0.jar", "wasb:///example/jars/1.0.0/azure-documentdb-1.14.0.jar", "wasb:///example/jars/1.0.0/azure-documentdb-rx-0.9.0-rc2.jar", "wasb:///example/jars/1.0.0/json-20140107.jar", "wasb:///example/jars/1.0.0/rxjava-1.3.0.jar", "wasb:///example/jars/1.0.0/rxnetty-0.4.20.jar"], "conf": { "spark.jars.packages": "com.microsoft.azure:azure-cosmosdb-spark_2.2.0_2.11:1.1.0", "spark.jars.excludes": "org.scala-lang:scala-reflect" } } iotConfig = { "Endpoint" : "https://myDB.documents.azure.com:443/", "Masterkey" : "myKey==", "Database" : "test", "preferredRegions" : "West Europe", "Collection" : "surrogate", "SamplingRation" : "1.0", "schema_samplesize" : "1000", "query_pagesize" : "2147483647" } df = spark.read.format("com.microsoft.azure.cosmosdb.spark").options(**iotConfig).load() df.createOrReplaceTempView("c") #will work df.show() #wont work %%sql select count(*) from c #wont work %%sql select * from c order by name desc #wont work df.count() #wont work df.write.saveAsTable('table') </code></pre> <p>如有任何建议,我们将不胜感激。 提前谢谢。在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>也许你应该试着增加你的收藏的吞吐量。这正是<code>Request rate is large</code>错误所指示的</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
为什么在使用strptime时会出现未进行转换的数据错误?
4 回答
为什么在使用strptim时会出现这个datetime日期错误
1 回答
为什么在使用StyleFrame时索引列的标题不显示sf.至excel()?
9 回答
为什么在使用sum()函数时会发生“int”对象不可调用的错误?
9 回答
为什么在使用sympy.dsolve时会得到“'list'对象没有属性'func'”?
7 回答
为什么在使用tabla时会得到一个空的数据帧?
3 回答
为什么在使用tensorboard时需要add_graph()的第二个参数?
10 回答
为什么在使用TensorFlow Lite转换YOLOv4时,推断时间/大小没有改进?有什么可能的改进吗?
2 回答
为什么在使用Tensorflow加载训练批时会出现内存泄漏?
2 回答
为什么在使用tensorflow时会收到警告/错误(使用函数API,但未实现错误)
10 回答
为什么在使用tetpyclient发出POST请求时出现403错误?
5 回答
为什么在使用TextBlob时会出现HTTP错误?
5 回答
为什么在使用TFIDF时出现错误“IndexError:list index out of range”pyspark.ml.feature?
6 回答
为什么在使用timedelta格式化之后,我在python中的日期是错误的?
7 回答
为什么在使用timeit或exec函数时,函数中的变量不会在提供的全局命名空间中搜索?
5 回答
为什么在使用tkinter时不能使用复选框?
10 回答
为什么在使用todoistpythonapi时会返回这个奇怪的ID?
10 回答
为什么在使用TQM时,在调整图像大小时,处理时间会有很大的差异?
9 回答
为什么在使用Tweepy下载用户时间线时收到错误消息
2 回答
为什么在使用twitter帐户登录Django应用程序时重定向127.0.0.1:8000?
1 回答