在pyspark中对RDD元素计算Xquery

books_xquery = """for $x in /bookstore/book where $x/price>30 return $x/title/data()""" proc_books = sc._jvm.com.elsevier.spark_xml_utils.xquery.XQueryProcessor.getInstance(books_xquery) books_xml = sc.wholeTextFiles("xmls/books.xml") books_xml.map(lambda x: proc_books.evaluate(x[1])).collect() # Error # I can share the stacktrace if you guys want

1条回答

网友

1楼 · 发布于 2024-06-20 15:10:22

不幸的是，不可能在Python代码的映射调用中直接调用Java/Scala库This answer很好地解释了为什么没有简单的方法可以做到这一点。简而言之，原因是Py4J网关（将Python调用“转换”到JVM世界所必需的）仅存在于驱动程序节点上，而您试图执行的映射调用则在执行器节点上运行

解决这个问题的一种方法是将XQuery函数包装在Scala UDF（解释为here）中，但仍然需要编写几行Scala代码

编辑：如果您能够从XQuery切换到XPath，一个可能更简单的选择是更改（XPath）库ElementTree是用Python编写的XML库，也是XPath

代码

xmls = spark.sparkContext.wholeTextFiles("xmls/test_files")
import xml.etree.ElementTree as ET
xpathquery = "...your query..."
xmls.flatMap(lambda x: ET.fromstring(x[1]).findall(xpathquery)) \
    .map(lambda x: x.text) \
    .foreach(print)

将针对从目录xmls/test_files加载的所有文档打印运行xpathquery的所有结果

首先使用flatMap作为findall调用，返回每个文档中所有匹配的elements的列表。通过使用flatMap，此列表被展平（每个文件的结果可能包含多个元素）。在第二个map调用中，元素被映射到它们的text以获得可读的输出

相关问题更多 >

编程相关推荐

热门问题

热门文章