Wireshark json捕获到sp

2024-05-18 09:08:48 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个来自wireshark的JSON文件需要加载到Spark。我用的是PySpark。在

我需要从这些JSON文件中提取数据,然后将这些数据输出为JSON文件。在

问题是,我似乎无法以帮助我找到每个数据的方式正确加载JSON文件。我尝试了json.loads,也尝试了Spark中的SQLContext。 spark中的Sqlcontext不会有太大帮助,因为我想让它适应spark流模块。 Json文件如下所示:

[
  {
    "_index": "packets-2017-07-27",
    "_type": "pcap_file",
    "_score": null,
    "_source": {
      "layers": {
        "frame": {
          "frame.encap_type": "1",
          "frame.time": "May 13, 2004 11:17:09.864896000 Afr. centrale Ouest",
          "frame.offset_shift": "0.000000000",
          "frame.time_epoch": "1084443429.864896000",
          "frame.time_delta": "0.000000000",
          "frame.time_delta_displayed": "0.000000000",
          "frame.time_relative": "2.553672000",
          "frame.number": "13",
          "frame.len": "89",
          "frame.cap_len": "89",
          "frame.marked": "0",
          "frame.ignored": "0",
          "frame.protocols": "eth:ethertype:ip:udp:dns",
          "frame.coloring_rule.name": "UDP",
          "frame.coloring_rule.string": "udp"
        },....]

Tags: 文件数据jsonlentimetyperuleframe
1条回答
网友
1楼 · 发布于 2024-05-18 09:08:48
rdd = sc.wholeTextFiles("abc.json")     
import re
json_rdd = rdd.map(lambda x : x[1])\
.map(lambda x : re.sub(r"\s+", "", x, \
flags=re.UNICODE))


printRdd(json_rdd)
df = spark.read.json(json_rdd)
df.printSchema()

相关问题 更多 >