Tag: regex

Поиск уличного адреса в строке – Python или Ruby

Эй, мне было интересно, как найти уличный адрес в строке в Python / Ruby? Возможно, с помощью регулярного выражения? Кроме того, он будет в следующем формате (США) 420 Fanboy Lane, Купертино CA Благодаря!

Согласование нескольких групп регулярных выражений и их удаление

Мне был предоставлен файл, из которого я хотел бы извлечь полезные данные. Формат файла выглядит примерно так: LINE: 1 TOKENKIND: somedata TOKENKIND: somedata LINE: 2 TOKENKIND: somedata LINE: 3 и т.д… То, что я хотел бы сделать, это удалить LINE: и номер строки, а также TOKENKIND: поэтому я просто оставлен со строкой, состоящей из «somedata […]

Выполните проверку WebDriverWait () или аналогичную проверку регулярного выражения в Python

Я хотел бы иметь возможность выполнять что-то похожее на WebDriverWait() , то есть: WebDriverWait(driver, 60).until( expected_conditions.text_to_be_present_in_element((By.XPATH, "//tr[5]/td[11]/div"), "1.000000") ) … для регулярного выражения, где он ожидает отведенное количество времени перед сбоем. Я знаю, что могу что-то сделать, например … assert re.search(r"[0,1]{1}.[0-9]{6}", driver.find_element_by_xpath("//tr[5]/td[11]/div").text) … или я мог бы заменить поиск совпадением в приведенном выше примере. Проблема […]

регулярное выражение python более одного раза соответствует индексу строки поиска

Я ищу способ сделать функцию finditer модуля python re или более новым модулем регулярного выражения для соответствия всем возможным вариантам определенного шаблона, перекрытию или другим. Я знаю использование lookaheads для получения совпадений без использования строки поиска, но я все еще получаю только одно регулярное выражение для каждого индекса, где я мог бы получить больше одного. […]

Как найти текстовое описание смайликов, символов Unicode и emoji в строке (python, perl)?

Обнаружение и подсчет значков смайликов было рассмотрено ранее . В качестве продолжения этого вопроса и предоставленного решения я хотел бы расширить его с возможностью связывания обнаруженных смайликов, символов Юникода и эмози с их соответствующими (текстовыми) описаниями: смайлики (западные и восточные, например, List_of_emoticons из Википедии), символы Unicode (например, U1F600.pdf, доступные на веб-сайте Юникода (прямая ссылка включена […]

Извлечение глагольных стеблей из списка глаголов

У меня есть список строк, которые являются всеми глаголами. Мне нужно получить частоту слов для каждого глагола, но я хочу считать такие глаголы, как «хочу», «хочет», «желать» и «хотеть» в качестве одного глагола. Формально «глагол» определяется как набор из четырех слов, которые имеют вид {X, Xs, Xed, Xing} или формы {Xe, Xes, Xed, Xing}. Как […]

Недопустимый синтаксис с использованием регулярного выражения в python 3.4

Я использую следующее выражение в python 3.4, оно дает синтаксическую ошибку, но тот же код работает в python 2.7 block = re.compile(ur'DATA\(value\)[\S ]+\s((?:(?![^\n]+DATA\(value2\)).)*)', re.IGNORECASE | re.DOTALL) Я не уверен, что является реальной проблемой в этом выражении

регулярное выражение lelymatch ply имеет разные группы, чем обычный re

Я использую слой и замечаю странное несоответствие между совпадением токенов, хранящимся в t.lex.lexmatch, по сравнению с sre_pattern, определенным обычным способом с re-модулем. Кажется, что группа (x) отключена на 1. Я определил простой лексер, чтобы проиллюстрировать поведение, которое я вижу: import ply.lex as lex tokens = ('CHAR',) def t_CHAR(t): r'.' t.value = t.lexer.lexmatch return t l […]

Используйте Python для извлечения длин ветвей из Newick Format

У меня есть список в python, состоящий из одного элемента, который является деревом, написанным в Newick Format, как показано ниже: ['(BMNH833953:0.16529463651919140688,(((BMNH833883:0.22945757727367316336,(BMNH724182a:0.18028180766761139897,(BMNH724182b:0.21469677818346077913,BMNH724082:0.54350916483644962085):0.00654573856803835914):0.04530853441176059537):0.02416511342888815264,(((BMNH794142:0.21236619242575086042,(BMNH743008:0.13421900772403019819,BMNH724591:0.14957653992840658219):0.02592135486124686958):0.02477670174791116522,BMNH703458a:0.22983459269245612444):0.00000328449424529074,BMNH703458b:0.29776257618061197086):0.09881729077887969892):0.02257522897558370684,BMNH833928:0.21599133163597591945):0.02365043128986757739,BMNH724053:0.16069861523756587274):0.0;'] В формате дерева это выглядит следующим образом: Я пытаюсь написать код, который будет просматривать элемент списка и возвращать идентификаторы (BMNHxxxxxx), которые соединены длиной ветвления 0 (или, например, <0.001) (выделено красным). Я думал об использовании […]

NLTK regexp tokenizer не играет хорошо с десятичной точкой в ​​регулярном выражении

Я пытаюсь написать нормализатор текста, и один из основных случаев, который нужно обработать, – это что-то вроде 3.14 – three point one four или three point fourteen . В настоящее время я использую шаблон \$?\d+(\.\d+)?%? с nltk.regexp_tokenize , который, я считаю, должен обрабатывать числа, а также валюту и проценты. Тем не менее, в настоящий момент […]

Python - лучший язык программирования в мире.