字符串在PLY中有特殊的含义吗?

2024-10-01 04:54:10 发布

您现在位置:Python中文网/ 问答频道 /正文

当使用PLY(http://www.dabeaz.com/ply/)时,我注意到了一个非常奇怪的问题:当我使用&这样的标记进行连接时,下面的程序可以工作,但是当我在同一个地方使用AND时,PLY声称语法错误。在

课程:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import sys
import os

from ply import lex

import ply.yacc as yacc

parser = None
lexer = None


def flatten_list(lst):
    flat = []
    for x in lst:
        if isinstance(x, list):
            flat.extend(flatten_list(x))
        else:
            flat.append(x)
    return flat


############## Tokenization ##############

tokens = (
    'number',
    'lparen',
    'rparen',
    'textw',
    'titlew',
    'qword',
    'AND'
)

t_lparen = r'\('
t_rparen = r'\)'
t_textw = r'TEXTW:'
t_titlew = r'TITLEW:'
t_qword = r'\w+'
t_AND = r'AND'


def t_number(t):
    r'\d+'
    t.value = int(t.value)
    return t


t_ignore = ' \t'


def t_error(t):
    raise ValueError(
        'Illegal character "{}" at position {}, query text: {}'.format(t.value[0], t.lexpos, t.lexer.lexdata))


lexer = lex.lex()



################# Parsing #################


def p_querylist_boolop(p):
    """querylist : subquery AND subquery"""
    print >> sys.stderr, 'p_querylist', list(p)
    p[0] = []
    p[0].append(p[1])
    p[0].append(p[3])


def p_subquery(p):
    """subquery : lparen querykw qwordseq rparen"""
    print >> sys.stderr, 'p_subquery', list(p)
    p[0] = flatten_list(p[3])


def p_querykw(p):
    """querykw : textw
                | titlew"""
    print >> sys.stderr, 'p_querykw', list(p)
    p[0] = p[1]


def p_qwordseq(p):
    """qwordseq : qwordseq qword
                  | qwordseq number
                  | qword
                  | number"""
    print >> sys.stderr, 'p_qwordseq', list(p)
    if p[0]:
        p[0].extend(p[1:])
    else:
        p[0] = p[1:]



def p_error(p):
    global parser
    if p:
        tok = parser.token()
        if tok:
            msg = 'Syntax error in input, token "{}" at position {}, query text: {}'.format(tok.value, tok.lexpos,
                                                                                            lexer.lexdata)
            raise ValueError(msg)
    msg = 'Syntax error at the end of input, query text: {}'.format(lexer.lexdata)
    raise ValueError(msg)


parser = yacc.yacc()
# parser = yacc.yacc(debug=0, write_tables=0)


def parse_query(q):
    return parser.parse(q)


if __name__ == '__main__':
    query_texts = ["""(TEXTW: one article) AND (TEXTW: two books)"""]
    for qt in query_texts:
        res = parse_query(qt)
        print '***', res

这会产生:

^{pr2}$

但是,当我将以下内容更改为:

t_AND = r'&'
query_texts = ["""(TEXTW: one article) & (TEXTW: two books)"""]

…很好用:

*** [['one', 'article'], ['two', 'books']]

Tags: andimportparserifdefsysquerylist
1条回答
网友
1楼 · 发布于 2024-10-01 04:54:10

Ply对标记正则表达式排序有点古怪,部分原因是它依赖于底层python正则表达式库。用函数定义的标记,例如您的number标记,按照它们出现的顺序重新编码,并且与许多词汇扫描生成器不同,Ply不尝试执行最长匹配。由赋值定义的所有其他标记类型的优先级低于函数,并且通过减少(正则表达式的)长度来排列顺序。在

Ply手册(第4.3节)强烈建议不要对关键字标记使用变量赋值样式,例如AND,因为模式r'AND'将识别出,例如,ANDROGYNOUS的前三个字符,您可能会期望它是一个变量。 相反,它建议使用具有简单模式的函数,首先将所有关键字和变量识别为简单单词,然后使用字典来识别特定的关键字。样品代码和较少的电报解释在Ply手册中(在上面引用的第一节)。在

相关问题 更多 >