Tag: regex

Что не так с моим шаблоном регулярного выражения, чтобы найти повторяющиеся циклы в Python?

Я хочу сопоставить любую строку, которая имеет повторяющийся цикл. Как в этих данных: 3333333333333333333333333333333333333333/1-значный цикл (3) 1666666666666666666666666666666666666666/1-значный цикл (6) 1428571428571428571428571428571428571428/6 разряд цикл (142857) 1111111111111111111111111111111111111111/1-разрядный цикл (1) 0909090909090909090909090909090909090909/2-разрядный цикл (09) 0834522467546323545411673445234655345222 / нет цикла 0769230769230769230769230769230769230769/6-разрядный цикл (769230) 0714285714285714285714285714285714285714/6-разрядный цикл (714285) 0666666666666666666666666666666666666666/1-значный цикл (6) Образец, который я пробовал, это "([0-9]+?)\1+" который хорошо работает на других языках (например, […]

Как извлечь символьную ngram из предложений? – python

Следующая функция word2ngrams извлекает символ 3grams из слова: >>> x = 'foobar' >>> n = 3 >>> [x[i:i+n] for i in range(len(x)-n+1)] ['foo', 'oob', 'oba', 'bar'] В этом сообщении показано извлечение символов ngrams для одного слова, быстрая реализация символьных n-граммов с использованием python . Но что, если у меня есть предложения, и я хочу извлечь […]

Python regex конвертирует URL-адрес youtube в YouTube

Я создаю регулярное выражение, чтобы я мог найти ссылки на YouTube (может быть несколько) в куске текста HTML, размещенного пользователем. В настоящее время я использую следующее регулярное выражение, чтобы изменить «http://www.youtube.com/watch?v=-JyZLS2IhkQ» на отображение соответствующего видео YouTube: return re.compile('(http(s|):\/\/|)(www.|)youtube.(com|nl)\/watch\?v\=([a-zA-Z0-9-_=]+)').sub(tag, value) (где переменная «тег» является немного html, поэтому видео работает и «значение» пользователя) Теперь это работает .. […]

Преобразовать запятую в строку, но игнорировать запятую в кавычках

Как преобразовать "1,,2'3,4'" в список? Запятые разделяют отдельные элементы, если они не указаны в кавычках. В этом случае запятая должна быть включена в элемент. Это желаемый результат: ['1', '', '2', '3,4'] . Одно регулярное выражение, которое я нашел в другом потоке, чтобы игнорировать кавычки, выглядит следующим образом: re.compile(r'''((?:[^,"']|"[^"]*"|'[^']*')+)''') Но это дает мне этот результат: ['', […]

Стрип / обрезать все значения фрейма данных

Очистка значений многотипного фрейма данных в python / pandas, я хочу обрезать строки. В настоящее время я делаю это в двух инструкциях: import pandas as pd df = pd.DataFrame([[' a ', 10], [' c ', 5]]) df.replace('^\s+', '', regex=True, inplace=True) #front df.replace('\s+$', '', regex=True, inplace=True) #end df.values Есть ли способ обрезать мои значения в одном […]

Как использовать регулярные выражения сделать обратный поиск?

Например: Моя строка: 123456789 nn nn oo nn nn mlm nn203 . Моя цель: nn . Затем я сопоставляю строку от конца до начала и возвращаю результат первого совпадения и его позицию. В этом примере результат nn начинается в [-5] в [-3]. Я написал простой funcitonto для этого процесса, но как использовать регулярные выражения для […]

Использование целых чисел / дат в качестве терминалов в парсере NLTK

Я пытаюсь использовать анализатор Earley в NLTK для анализа предложений, таких как: Если дата предшествует 12/21/2010, то серийный = 10 Для этого я пытаюсь написать CFG, но проблема в том, что мне нужно будет иметь общий формат дат и целых чисел в качестве терминалов вместо конкретных значений. Есть ли способ указать правую часть производственного правила […]

Как написать регулярное выражение для соответствия строковому литералу, где escape является удвоением символа кавычки?

Я пишу парсер, используя слой, который должен идентифицировать строковые литералы FORTRAN. Они цитируются с одинарными кавычками, при этом escape-символ удваивается одинарными кавычками. т.е. 'I don''t understand what you mean' – это допустимая строка FORTRAN. Ply принимает ввод в регулярном выражении. Моя попытка пока не работает, и я не понимаю, почему. t_STRING_LITERAL = r"'[^('')]*'" Есть идеи?

Python – Regex – Как найти строку между двумя наборами строк

Рассмотрим следующее: <div id=hotlinklist> <a href="foo1.com">Foo1</a> <div id=hotlink> <a href="/">Home</a> </div> <div id=hotlink> <a href="/extract">Extract</a> </div> <div id=hotlink> <a href="/sitemap">Sitemap</a> </div> </div> Как бы вы взяли строку sitemap с регулярным выражением в python ? <a href="/sitemap">Sitemap</a> Для вытягивания анкерных меток можно использовать следующие. '/<a(.*?)a>/i' Тем не менее, существует несколько якорных тегов. Также есть несколько ссылок […]

Очистить уродливый код HTML WYSIWYG? Утилита Python или * nix

Я, наконец, обновляю ( переписываю ;)) свое первое приложение Django, но я переношу весь контент. Я по глупости предоставил пользователям полный редактор WYSIWYG для определенных задач, созданный код HTML, конечно, ужасно уродливый, с дополнительными тегами, чем контент. Кто-нибудь знает о библиотеке или внешнем приложении оболочки, которое я мог бы использовать для очистки кода? Иногда я […]

Python - лучший язык программирования в мире.