这是我第一次使用语法和解析器生成器编写解析器。我想使用larkpython模块解析某种asn.1格式。在
下面是我试图解析的数据示例:
text = """
start_thing {
literal {
length 100,
fuzz lim unk,
seq-data gap {
type fragment,
linkage linked,
linkage-evidence {
{
type unspecified
}
}
}
},
loc int {
from 0,
to 1093,
strand plus,
id gi 384632836
}
}
"""
这个结构可以包含各种类型的节点,而且我不能预先确切地知道我应该期待什么样的标记或标记的组合。但是,我希望能够解析一些结构,比如“loc int{…}”部分。在
下面是我尝试过的语法,我用数字来定义优先级:
^{pr2}$我认为优先级(以附加数字的形式)足以让“loc int”的内容优先于更一般的节点类型进行识别,但是当我运行make a parser for the upper grammar并在上面的一段文本上运行时,这部分似乎被解析为subnodes
,而不是{
parser = Lark(grammar, start="thing", ambiguity="explicit")
parsed = parser.parse(text)
print(parsed.pretty())
我得到以下信息:
thing
subnodes
nodes
subnodes
literal
nodes
intinfo
length
100
onlytags fuzz lim unk
subnodes
seq-data gap
nodes
onlytags type fragment
onlytags linkage linked
subnodes
linkage-evidence
nodes
subnodes
nodes
onlytags type unspecified
subnodes
loc int
nodes
intinfo
from
0
intinfo
to
1093
onlytags strand plus
intinfo
id gi
384632836
我做错什么了?在
注意:我看到了一个相关的问题(Priority in grammar using Lark),但我不知道如何将它的答案应用于我的问题。我认为我无法完全消除语法歧义(实际数据中可能有太多的情况),而且我不明白ambiguity="explicit"
选项应该做什么。在
我试着颠倒优先级,如下所示:
grammar = """\
thing: "start_thing" node
strand_info.1: "strand plus"
| "strand minus"
locus_info.2: "loc int" "{" "from" INT "," "to" INT "," strand_info "," "id gi" INT "}"
nodes.5: node?
| node ("," node)*
node.5: locus_info
| TAGS? INT -> intinfo
| TAGS? "{" nodes "}" -> subnodes
| TAGS -> onlytags
TAGS.4: TAGWORD (WS TAGWORD)*
TAGWORD.3: ("_"|LETTER)("_"|"-"|LETTER|DIGIT)*
%import common.WS
%import common.LETTER
%import common.DIGIT
%import common.INT
%ignore WS
"""
parser = Lark(grammar, start="thing", ambiguity="explicit")
parsed = parser.parse(text)
print(parsed.pretty())
然而,输出是完全相同的。这就像是因为没有正确指定我的locus_info
规则而忽略了那些优先级,或者实际上没有歧义。在
我认为你应该改变你的优先次序。“地点信息4”是最精确的规则,所以它必须是第一位的。在
相关问题 更多 >
编程相关推荐