我应该在代码中添加什么以避免使用pyspark时出现“超过允许的最大字节数”错误？

[Stage 0:> (0 + 1) / 2]19/02/20 12:31:04 ERROR datasources.FileFormatWriter: Aborting job null. org.apache.spark.SparkException: Job aborted due to stage failure: Serialized task 0:0 was 318690577 bytes, which exceeds max allowed: spark.rpc.message.maxSize (134217728 bytes). Consider increasing spark.rpc.message.maxSize or using broadcast variables for large values.

1条回答

网友

1楼 · 发布于 2024-10-04 01:35:40

用户10465355提到我应该直接使用Spark。这样做更简单，也是正确的方法。在

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('Networks').getOrCreate()

dataset = spark.read.csv('Networks_arin_db_2-20-2019_parsed.csv', header=True, inferSchema=True)
dataset.show(5)

dataset.write \
  .mode("append") \
  .option("path", "/user/hive/warehouse/analytics.db/arin_network") \
  .saveAsTable("analytics.arin_network")

编程相关推荐

java Leetcode移动零：我的bug在哪里？
Selenium WebDriver中隐式等待（）中的java错误
macos如何从Java中访问资源文件。在OS X和Java 7上运行的应用程序包？
java setSelectionBackGround（）不在jTable中设置颜色
java使用URL加载图像
JAVA在不删除空格的情况下拆分
java在Android上将Google+配置文件图片从Uri转换为位图
java我无法访问JSP页面中的modelmap值
javaaspose数据集。readXml生成更复杂的结构
java是否有任何方法可以查询用户是否存在于基于SAML的身份提供程序中？

相关问题更多 >

编程相关推荐

热门问题

热门文章

我应该在代码中添加什么以避免使用pyspark时出现“超过允许的最大字节数”错误？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >