在gram中正确地设置规则和终端之间的优先级

2024-10-01 07:50:16 发布

您现在位置:Python中文网/ 问答频道 /正文

这是我第一次使用语法和解析器生成器编写解析器。我想使用larkpython模块解析某种asn.1格式。在

下面是我试图解析的数据示例:

text = """
start_thing {
  literal {
    length 100,
    fuzz lim unk,
    seq-data gap {
      type fragment,
      linkage linked,
      linkage-evidence {
        {
          type unspecified
        }
      }
    }
  },
  loc int {
    from 0,
    to 1093,
    strand plus,
    id gi 384632836
  }
}
"""

这个结构可以包含各种类型的节点,而且我不能预先确切地知道我应该期待什么样的标记或标记的组合。但是,我希望能够解析一些结构,比如“loc int{…}”部分。在

下面是我尝试过的语法,我用数字来定义优先级:

^{pr2}$

我认为优先级(以附加数字的形式)足以让“loc int”的内容优先于更一般的节点类型进行识别,但是当我运行make a parser for the upper grammar并在上面的一段文本上运行时,这部分似乎被解析为subnodes,而不是{}:

parser = Lark(grammar, start="thing", ambiguity="explicit")
parsed = parser.parse(text)
print(parsed.pretty())

我得到以下信息:

thing
  subnodes
    nodes
      subnodes
        literal
        nodes
          intinfo
            length
            100
          onlytags  fuzz lim unk
          subnodes
            seq-data gap
            nodes
              onlytags  type fragment
              onlytags  linkage linked
              subnodes
                linkage-evidence
                nodes
                  subnodes
                    nodes
                      onlytags  type unspecified
      subnodes
        loc int
        nodes
          intinfo
            from
            0
          intinfo
            to
            1093
          onlytags  strand plus
          intinfo
            id gi
            384632836

我做错什么了?在

注意:我看到了一个相关的问题(Priority in grammar using Lark),但我不知道如何将它的答案应用于我的问题。我认为我无法完全消除语法歧义(实际数据中可能有太多的情况),而且我不明白ambiguity="explicit"选项应该做什么。在


编辑:反转优先级

我试着颠倒优先级,如下所示:

grammar = """\
thing: "start_thing" node
strand_info.1: "strand plus"
    | "strand minus"
locus_info.2: "loc int" "{" "from" INT "," "to" INT "," strand_info "," "id gi" INT "}"
nodes.5: node?
    | node ("," node)*
node.5: locus_info
    | TAGS? INT           -> intinfo
    | TAGS? "{" nodes "}" -> subnodes
    | TAGS                -> onlytags
TAGS.4: TAGWORD (WS TAGWORD)*
TAGWORD.3: ("_"|LETTER)("_"|"-"|LETTER|DIGIT)*
%import common.WS
%import common.LETTER
%import common.DIGIT
%import common.INT
%ignore WS
"""
parser = Lark(grammar, start="thing", ambiguity="explicit")
parsed = parser.parse(text)
print(parsed.pretty())

然而,输出是完全相同的。这就像是因为没有正确指定我的locus_info规则而忽略了那些优先级,或者实际上没有歧义。在


Tags: parsertypeparsedstartlocintnodesthing