对文本中的特定字符计数

+-------------------------+-------------------+ |text | B | C | D | E | F | +-------------------------+---+---+---+---+---+ |BBEBEBEFC | 4 | 1 | 0 | 3 | 1 | |DDBBCDCBBECCBBE | 6 | 4 | 3 | 2 | 0 | +-------------------------+---+---+---+---+---+

1条回答

网友

1楼 · 发布于 2024-09-29 21:55:19

拆分、分解、分组依据、轴、计数：

import pyspark.sql.functions as F

df2 = (df.withColumn('miid', F.monotonically_increasing_id().alias('miid'))
         .withColumn('split_text', F.explode(F.split('text', '')))
         .filter("split_text != ''")
         .groupBy('text', 'miid')
         .pivot('split_text')
         .agg(F.count('*'))
         .fillna(0)
         .drop('miid')
      )

df2.show()
+       -+ -+ -+ -+ -+ -+
|           text|  B|  C|  D|  E|  F|
+       -+ -+ -+ -+ -+ -+
|DDBBCDCBBECCBBE|  6|  4|  3|  2|  0|
|     DCDBBEDBBE|  4|  1|  3|  2|  0|
|      BBEBEBEFC|  4|  1|  0|  3|  1|
+       -+ -+ -+ -+ -+ -+

相关问题更多 >

编程相关推荐

热门问题

热门文章

对文本中的特定字符计数

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >