Строки Lex с одиночными, двойными или тройными кавычками

Моя цель состоит в том, чтобы анализировать, как Python со строками.

Вопрос: Как написать lex для поддержки следующего:

  1. "string..."
  2. 'string...'
  3. """multi line string \n \n end"""
  4. '''multi line string \n \n end'''

Некоторый код:

 состояния = (
         ('string', 'exclusive'),
         )

 # Строки
 def t_begin_string (self, t):
     г '(\' | (\ '{3}) | \ "| (\" {3}))
     t.lexer.push_state ( 'строка')

 def t_string_end (self, t):
     г '(\' | (\ '{3}) | \ "| (\" {3}))
     t.lexer.pop_state ()

 def t_string_newline (self, t):
     г «\ п»
     t.lexer.lineno + = 1

 def t_string_error (self, t):
     print («Недопустимый символ в строке«% s »»% t.value [0])
     t.lexer.skip (1)


Моя нынешняя идея состоит в том, чтобы создать 4 уникальных состояния, которые будут соответствовать 4 различным строковым случаям, но мне интересно, есть ли лучший подход.

Спасибо за вашу помощь!

2 Solutions collect form web for “Строки Lex с одиночными, двойными или тройными кавычками”

изолировать общую строку, чтобы создать единое состояние, и попытаться создать автомат с меньшими состояниями, но вы можете посмотреть на py lex yacc, если вы не беспокоитесь об использовании внешней библиотеки, которая упрощает работу с ur

Однако u нуждается в основах lex yacc ///, пример кода показан так, как показано

 tokens = ( 'NAME','NUMBER', 'PLUS','MINUS','TIMES','DIVIDE','EQUALS', 'LPAREN','RPAREN', ) enter code here # Tokens t_PLUS = r'\+' t_MINUS = r'-' t_TIMES = r'\*' t_DIVIDE = r'/' t_EQUALS = r'=' t_LPAREN = r'\(' t_RPAREN = r'\)' t_NAME = r'[a-zA-Z_][a-zA-Z0-9_]*' def t_NUMBER(t): r'\d+' try: t.value = int(t.value) except ValueError: print("Integer value too large %d", t.value) t.value = 0 return t # Ignored characters t_ignore = " \t" def t_newline(t): r'\n+' t.lexer.lineno += t.value.count("\n") def t_error(t): print("Illegal character '%s'" % t.value[0]) t.lexer.skip(1) # Build the lexer import ply.lex as lex lex.lex() # Parsing rules precedence = ( ('left','PLUS','MINUS'), ('left','TIMES','DIVIDE'), ('right','UMINUS'), ) # dictionary of names names = { } def p_statement_assign(t): 'statement : NAME EQUALS expression' names[t[1]] = t[3] def p_statement_expr(t): 'statement : expression' print(t[1]) def p_expression_binop(t): '''expression : expression PLUS expression | expression MINUS expression | expression TIMES expression | expression DIVIDE expression''' if t[2] == '+' : t[0] = t[1] + t[3] elif t[2] == '-': t[0] = t[1] - t[3] elif t[2] == '*': t[0] = t[1] * t[3] elif t[2] == '/': t[0] = t[1] / t[3] def p_expression_uminus(t): 'expression : MINUS expression %prec UMINUS' t[0] = -t[2] def p_expression_group(t): 'expression : LPAREN expression RPAREN' t[0] = t[2] def p_expression_number(t): 'expression : NUMBER' t[0] = t[1] def p_expression_name(t): 'expression : NAME' try: t[0] = names[t[1]] except LookupError: print("Undefined name '%s'" % t[1]) t[0] = 0 def p_error(t): print("Syntax error at '%s'" % t.value) import ply.yacc as yacc yacc.yacc() while 1: try: s = input('calc > ') # Use raw_input on Python 2 except EOFError: break yacc.parse(s) 

Попробуйте использовать модуль pyparsing . С помощью этого модуля вы можете легко разбирать строки с хорошим стилем без использования регулярных выражений.

Следующий пример должен помочь вам разбор выражений типа "string..." и """string""" .

 from pyparsing import Word, OneOrMore, alphas string = """string""" w = OneOrMore('\"') + Word(alphas + '.') + OneOrMore('\"') w.parseString(string) 
Python - лучший язык программирования в мире.