在gram中正确地设置规则和终端之间的优先级

2024-10-01 07:50:16 发布

您现在位置：Python中文网/ 问答频道 /正文

7968

网友

男 | 程序猿一只，喜欢编程写python代码。

这是我第一次使用语法和解析器生成器编写解析器。我想使用larkpython模块解析某种asn.1格式。在

下面是我试图解析的数据示例：

text = """
start_thing {
  literal {
    length 100,
    fuzz lim unk,
    seq-data gap {
      type fragment,
      linkage linked,
      linkage-evidence {
        {
          type unspecified
        }
      }
    }
  },
  loc int {
    from 0,
    to 1093,
    strand plus,
    id gi 384632836
  }
}
"""

这个结构可以包含各种类型的节点，而且我不能预先确切地知道我应该期待什么样的标记或标记的组合。但是，我希望能够解析一些结构，比如“loc int{…}”部分。在

下面是我尝试过的语法，我用数字来定义优先级：

^{pr2}$

我认为优先级（以附加数字的形式）足以让“loc int”的内容优先于更一般的节点类型进行识别，但是当我运行make a parser for the upper grammar并在上面的一段文本上运行时，这部分似乎被解析为subnodes，而不是{}：

parser = Lark(grammar, start="thing", ambiguity="explicit")
parsed = parser.parse(text)
print(parsed.pretty())

我得到以下信息：

thing
  subnodes
    nodes
      subnodes
        literal
        nodes
          intinfo
            length
            100
          onlytags  fuzz lim unk
          subnodes
            seq-data gap
            nodes
              onlytags  type fragment
              onlytags  linkage linked
              subnodes
                linkage-evidence
                nodes
                  subnodes
                    nodes
                      onlytags  type unspecified
      subnodes
        loc int
        nodes
          intinfo
            from
            0
          intinfo
            to
            1093
          onlytags  strand plus
          intinfo
            id gi
            384632836

我做错什么了？在

注意：我看到了一个相关的问题（Priority in grammar using Lark），但我不知道如何将它的答案应用于我的问题。我认为我无法完全消除语法歧义（实际数据中可能有太多的情况），而且我不明白ambiguity="explicit"选项应该做什么。在

编辑：反转优先级

我试着颠倒优先级，如下所示：

grammar = """\
thing: "start_thing" node
strand_info.1: "strand plus"
    | "strand minus"
locus_info.2: "loc int" "{" "from" INT "," "to" INT "," strand_info "," "id gi" INT "}"
nodes.5: node?
    | node ("," node)*
node.5: locus_info
    | TAGS? INT           -> intinfo
    | TAGS? "{" nodes "}" -> subnodes
    | TAGS                -> onlytags
TAGS.4: TAGWORD (WS TAGWORD)*
TAGWORD.3: ("_"|LETTER)("_"|"-"|LETTER|DIGIT)*
%import common.WS
%import common.LETTER
%import common.DIGIT
%import common.INT
%ignore WS
"""
parser = Lark(grammar, start="thing", ambiguity="explicit")
parsed = parser.parse(text)
print(parsed.pretty())

然而，输出是完全相同的。这就像是因为没有正确指定我的locus_info规则而忽略了那些优先级，或者实际上没有歧义。在

Tags： parser type parsed start loc int nodes thing

1条回答

网友

1楼 · 发布于 2024-10-01 07:50:16

我认为你应该改变你的优先次序。“地点信息4”是最精确的规则，所以它必须是第一位的。在