hadoop如何在spark中用java读取xls和xlsx文件?
我想在spark中逐行读取xls和xlsx(MS Excel)文件,就像我们读取文本文件一样,或者以任何方式
我想使用spark来提高读取大型xls文件(比如1GB)的性能,这就是为什么我需要spark像读取文本文件一样读取文件的部分
如何从spark中的excel文件中读取数据,无论数据是否逐行读取
我只想用spark读取xls文件中的条目
请建议
谢谢
你可以在下面搜索框中键入要查询的问题!
我想在spark中逐行读取xls和xlsx(MS Excel)文件,就像我们读取文本文件一样,或者以任何方式
我想使用spark来提高读取大型xls文件(比如1GB)的性能,这就是为什么我需要spark像读取文本文件一样读取文件的部分
如何从spark中的excel文件中读取数据,无论数据是否逐行读取
我只想用spark读取xls文件中的条目
请建议
谢谢
# 1 楼答案
您可以尝试使用Spark(https://github.com/ZuInnoTe/hadoopoffice/wiki)读取/写入HadoopOffice库中的Excel文件。它支持加密Excel、链接工作簿、按元数据过滤
# 2 楼答案
你不能用
spark
来做这件事。这不是为它准备的。使用其他库,例如Apache POI读取excel,然后将数据作为文本输入spark# 3 楼答案
以下是我的做法
在maven中添加依赖项
我的主课
# 4 楼答案
虽然这个问题有点老了,但我仍在回答。也许对其他人有用。 答案是肯定的,你可以用ApacheSpark2来实现。x、 假设您想要将一个包含3列的xls转换为数据集