Tag: regex

pandas droping слов в dataframe

У меня есть образец кадра данных, который я хочу сбросить все слова и сохранить значения. Column1 Column2 Column3 Column4 Column5 5FQ 1.047 S$55.3 UG44.2 as of 02/Jun/2016 S$8.2 mm Можно ли отбросить слова и сохранить все цифры? IE: чтобы получить желаемые результаты ниже: Column1 Column2 Column3 Column4 Column5 5 1.047 55.3 44.2 8.2

Регулярное выражение Python над несколькими символами перевода строки

У меня есть строка, которая содержит несколько путей к файлам, некоторые из которых содержат произвольные строки в пути, и я хочу проанализировать строку с помощью python, чтобы остались только имена файлов и расширения. Например: a/b/c/d/file1.ca/b/c/d/e/f/g/h/1/2/3/4/5/foo.c dir1/dir2/newlinedir /nextlinedir/bar.c должен быть проанализирован для вывода: file1.c foo.c bar.c Я использую следующее регулярное выражение (группы для имени файла и […]

Проблема с Python 2 re.sub

Я получил эту функцию, которая заменяет соответствие подстроки совпадением с тегами HTML. Эта функция будет потреблять строку на английском и греческом языках в основном. Функция: def highlight_text(st, kwlist, start_tag=None, end_tag=None): if start_tag is None: start_tag = '<span class="nom">' if end_tag is None: end_tag = '</span>' for kw in kwlist: st = re.sub(r'\b' + kw + […]

Как соответствие регулярному выражению, если оно не содержит определенного слова?

Я хочу написать регулярное выражение в Python или JavaScript для соответствия, если данная строка не содержит JUST только данное слово (например, «any»). Например : any : не соответствует AnY : не соответствует anyday : матч any day : матч blabla : матч

использование регулярных выражений на красивых тегах супа

Я недавно использовал красивый суп 4, и я пытался понять некоторые основы этого (по какой-то причине я был в порядке с bs3.x). Так, например, давайте начнем с чего-то простого: data=soup.find_all('h2') что дает мне что-то вроде: <h2><a href=\"/accurate-data/210-0023.prd?pageLevel=&amp;skuId=210-0023\">more-accurate-data</a></h2> что хорошо. Но когда я хочу повторить строку выше, используя что-то вдоль линий off (при условии, что вышеуказанное […]

Python positive-lookbehind split variable-width

Я, однако, что я правильно настроил выражение, но раскол не работает должным образом. c = re.compile(r'(?<=^\d\.\d{1,2})\s+'); for header in ['1.1 Introduction', '1.42 Appendix']: print re.split(c, header) Ожидаемый результат: ['1.1', 'Introduction'] ['1.42', 'Appendix'] Я получаю следующую стек: Traceback (последний последний вызов): Файл «foo.py», строка 1, в c = re.compile (r '(? <= ^ \ d. \ […]

IPv6 regexp python

Привет, мне нужно сопоставить адрес IPv6 с помощью скрипта python вроде: но кажется, что он не работает, даже шаблон правильный? data="Client IPv6: 2001:470:9b36:1::2" pattern="Client IPv6: (\A([0-9a-f]{1,4}:){1,1}(:[0-9a-f]{1,4}){1,6}\Z)|(\A([0-9a-f]{1,4}:){1,2}(:[0-9a-f]{1,4}){1,5}\Z)|(\A([0-9a-f]{1,4}:){1,3}(:[0-9a-f]{1,4}){1,4}\Z)|(\A([0-9a-f]{1,4}:){1,4}(:[0-9a-f]{1,4}){1,3}\Z)|(\A([0-9a-f]{1,4}:){1,5}(:[0-9a-f]{1,4}){1,2}\Z)|(\A([0-9a-f]{1,4}:){1,6}(:[0-9a-f]{1,4}){1,1}\Z)|(\A(([0-9a-f]{1,4}:){1,7}|:):\Z)|(\A:(:[0-9a-f]{1,4}){1,7}\Z)|(\A((([0-9a-f]{1,4}:){6})(25[0-5]|2[0-4]\d|[0-1]?\d?\d)(\.(25[0-5]|2[0-4]\d|[0-1]?\d?\d)){3})\Z)|(\A(([0-9a-f]{1,4}:){5}[0-9a-f]{1,4}:(25[0-5]|2[0-4]\d|[0-1]?\d?\d)(\.(25[0-5]|2[0-4]\d|[0-1]?\d?\d)){3})\Z)|(\A([0-9a-f]{1,4}:){5}:[0-9a-f]{1,4}:(25[0-5]|2[0-4]\d|[0-1]?\d?\d)(\.(25[0-5]|2[0-4]\d|[0-1]?\d?\d)){3}\Z)|(\A([0-9a-f]{1,4}:){1,1}(:[0-9a-f]{1,4}){1,4}:(25[0-5]|2[0-4]\d|[0-1]?\d?\d)(\.(25[0-5]|2[0-4]\d|[0-1]?\d?\d)){3}\Z)|(\A([0-9a-f]{1,4}:){1,2}(:[0-9a-f]{1,4}){1,3}:(25[0-5]|2[0-4]\d|[0-1]?\d?\d)(\.(25[0-5]|2[0-4]\d|[0-1]?\d?\d)){3}\Z)|(\A([0-9a-f]{1,4}:){1,3}(:[0-9a-f]{1,4}){1,2}:(25[0-5]|2[0-4]\d|[0-1]?\d?\d)(\.(25[0-5]|2[0-4]\d|[0-1]?\d?\d)){3}\Z)|(\A([0-9a-f]{1,4}:){1,4}(:[0-9a-f]{1,4}){1,1}:(25[0-5]|2[0-4]\d|[0-1]?\d?\d)(\.(25[0-5]|2[0-4]\d|[0-1]?\d?\d)){3}\Z)|(\A(([0-9a-f]{1,4}:){1,5}|:):(25[0-5]|2[0-4]\d|[0-1]?\d?\d)(\.(25[0-5]|2[0-4]\d|[0-1]?\d?\d)){3}\Z)|(\A:(:[0-9a-f]{1,4}){1,5}:(25[0-5]|2[0-4]\d|[0-1]?\d?\d)(\.(25[0-5]|2[0-4]\d|[0-1]?\d?\d)){3}\Z)" re.findall(pattern, data)

Python: извлечение предложения с определенным словом

У меня есть json-файл, содержащий такие тексты, как: др. goldberg предлагает все. Хорошее и приятное общение. Как я могу извлечь предложение с ключевым словом «парковка»? Мне не нужны два других предложения. Я попробовал это: with open("test_data.json") as f: for line in f: if "parking" in line: print line Он печатает весь текст, а не конкретное […]

Как обнаружить и отремонтировать поврежденный раздел CDATA в файле XML?

Файл XML с CDATA неожиданно ломается, когда он сначала видит ]]> где он не должен заканчиваться. Я пытаюсь заменить ]]> с помощью ]]]]><![CDATA[> . Он должен просто совпадать с ]]> но не ]]></Bold> или ]]>]]></Bold> . Вот файл XML. <article> <Date>2011-04-22T10:09:18Z</Date> <Heading><![CDATA[data – content ]]></Heading> <Body><![CDATA[contene – data Normal data. ]]></Body> </article> <article> <Date>2011-02-26T12:48:09Z</Date> <Heading><![CDATA[Content]]></Heading> […]

regex: заменить дефисы на en-dashes с re.sub

Я использую небольшую функцию для перебора файлов, чтобы любые дефисы заменялись en-dashes – (alt + 0150). Функция, которую я использую, добавляет некоторый аромат регулярного выражения к решению в связанной с этим проблеме ( как заменить символ INSIDE для текстового содержимого многих файлов автоматически? ) def mychanger(fileName): with open(fileName,'r') as file: str = file.read() str = […]

Python - лучший язык программирования в мире.