PySpark（Python）：通过SparkContext.newAPIHadoopFi

sheet = sc.newAPIHadoopFile( 'sample.txt', 'org.apache.hadoop.mapreduce.lib.input.TextInputFormat', 'org.apache.hadoop.io.LongWritable', 'org.apache.hadoop.io.Text', conf={'textinputformat.record.delimiter': 'var::'} )

1条回答

网友

1楼 · 发布于 2024-09-27 22:39:43

o.a.h.mapreduce.lib.input.TextInputFormat返回的每个（key，value）对都是一个包含偏移量（long）和字符串的单个本地数据结构。没有一种机制可以在不创建自定义Hadoop ^{}的情况下在多个记录之间拆分值。在

“千言万语”不是很精确的描述，但作为经验法则：

如果磁盘上的大小小于几兆字节，您很可能会很好地使用。在
否则，您将不得不跟踪内存使用情况和GC并调整配置。在

还要记住，大记录可能导致资源利用率不理想。在最坏的情况下，每个任务可能只有一条记录，而记账成本可能远高于实际执行的成本。在

编程相关推荐

java将视图从constraint layouts类外部膨胀为约束布局
java如何使用testng参数化selenium中的用户数据并将其馈送到脚本
安卓 Java正则表达式在两个字符串之间提取字符串
java使用继承类的生成生成器，而生成器本身不继承
java匹配两个相同字符之间的字符串
java在ArrayList中添加项的值
主方法完成后的java Swing计时器持久性
使用Android应用程序的Java/Tomcat服务器中的Windows身份验证
java多态性银行应用程序
java如何添加拉丁文5字符？

相关问题更多 >

编程相关推荐

热门问题

热门文章

PySpark（Python）：通过SparkContext.newAPIHadoopFi

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >