失踪的小精灵

pyspark-utils的Python项目详细描述


Pyspark实用程序

失踪的小精灵。

用法

要安装:

pip install pyspark-utils

助手

importpyspark_utils.helperasspark_helper# Nicely show rdd count and 3 items.rdd=spark_helper.cache_and_log('MyRDD',rdd,3)

op

importpyspark_utils.opasspark_op# RDD<key, value>  ->  RDD<new_key, value>pair_rdd.map(spark_op.do_key(lambdakey:new_key))# RDD<key, value>  ->  RDD<result>pair_rdd.map(spark_op.do_tuple(lambdakey,value:result))# RDD<key, value>  ->  RDD<value, key>pair_rdd.map(spark_op.swap_kv())# RDD<key, value>  ->  RDD<key, value> if func(key)pair_rdd.filter(spark_op.filter_key(lambdakey:true_or_false))# RDD<key, value>  ->  RDD<key, value> if func(value)pair_rdd.filter(spark_op.filter_value(lambdavalue:true_or_false))# RDD<iteratable>  ->  RDD<tuple_or_list> with transformed values.rdd.map(spark_op.do_tuple_elems(lambdaelem:new_elem))rdd.map(spark_op.do_list_elems(lambdaelem:new_elem))# RDD<path>  ->  RDD<path> if path matches any given fnmatch-style patternsrdd.filter(spark_op.filter_path(['*.txt','*.csv','path/a.???']))# RDD<element>  ->  RDD<element, element>rdd.keyBy(spark_op.identity)# RDD<key, value>   ->   RDD<key, value> with keys in key_rddspark_op.filter_keys(pair_rdd,key_rdd)# RDD<key, value>   ->   RDD<key, value> with keys in whitelist and not in blacklistspark_op.filter_keys(pair_rdd,whitelist_key_rdd,blacklist_key_rdd)# RDD<key, value>   ->   RDD<key, value> with keys not in key_rddspark_op.substract_keys(pair_rdd,key_rdd)# RDD<element>   ->   RDD<element> where element is not Nonerdd.filter(spark_op.not_none)# RDD<key>   ->   RDD<key, value>rdd.map(spark_op.value_by(lambdakey:value))

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java无法从spring resttemplate访问sms网关   使用spark上下文方法参数的java并行化集合不正确   java中ReadLock的并发检查副本   java基于属性比较两个列表是否具有相同的元素   字符串Java文本块:缩进前缀中的制表符和空格的混合   java如何将带有@SpringBootApplication的maven模块作为测试范围中的依赖项添加到另一个maven模块   我需要一些关于在Java中使用2个jar文件的帮助   mysql JPA Java Spring Boot执行查找/连接表   java对话框选择具有特定名称的文件   java如何修复Spring工具套件4中的端口8080错误?   Java中的apache poi Excel阅读器   java如何在tomcat访问日志中记录线程上下文值   java有一种方法可以创建类<T>的实例,该类将类作为传递泛型的构造函数中的参数   默认情况下,java GORM onetomany映射执行即时抓取   java不能在安卓中接受全局变量   统计系统的java MongoDB异步驱动程序排名   java如何解析:无法解析插件“org.springframework.ide.eclipse.ui”?   用Java从一副牌中随机抽取5张牌   javaapachecamel动态消费者   java如何克服使用Flood Fill 4算法时的“薄边界”问题?