Tag: regex

Анализ XML в Python с регулярным выражением

Я пытаюсь использовать регулярное выражение для анализа XML файла (в моем случае это кажется самым простым способом). Например, строка может быть: line='<City_State>PLAINSBORO, NJ 08536-1906</City_State>' Чтобы получить доступ к тексту для тега City_State, я использую: attr = re.match('>.*<', line) но ничего не возвращается. Может кто-то указать, что я делаю неправильно?

Удаление пробела из txt с помощью python

У меня есть .txt-файл (очищенный как предварительно отформатированный текст с сайта), где данные выглядят так: B, NICKOLAS CT144531X D1026 JUDGE ANNIE WHITE JOHNSON ANDREWS VS BALL JA-15-0050 D0015 JUDGE EDWARD A ROBERTS Я бы хотел удалить все лишние пробелы (на самом деле это разные числа пробелов, а не вкладки) между столбцами. Я также хотел бы […]

Django get url regex по имени

У меня есть случай, когда я определил некоторые шаблоны url Django, и теперь хочу получить регулярное выражение, связанное с заданным шаблоном. Я хочу, потому что я хочу передать эти регулярные выражения клиенту, чтобы я мог проверять URL-адреса на клиенте (я говорю об обработке истории браузера) и запускать соответствующие обработчики (в JavaScript), когда есть совпадение. Например, […]

Perl, как регулярное выражение в Python

В Perl я бы сделал что-то вроде этого, чтобы использовать разные поля в регулярном выражении, разделяя разные поля на () и получая их с помощью $ foreach $line (@lines) { $line =~ m/(.*?):([^-]*)-(.*)/; $field_1 = $1 $field_2 = $2 $field_3 = $3 } Как я могу сделать что-то подобное в Python?

Использование регулярного выражения Python в Django

У меня есть веб-адрес: http://www.example.com/org/companyA Я хочу, чтобы иметь возможность передать CompanyA в представление, используя регулярные выражения. Это то, что у меня есть: (r'^org/?P<company_name>\w+/$',"orgman.views.orgman") и это не соответствует. В идеале все URL-адреса, похожие на example.com/org/X, передают x в представление. Заранее спасибо!

Токсизация слов с использованием регулярных выражений python

Я пытаюсь разделить строки на списки «тегов» в python. Разделение должно обрабатывать строки, такие как «HappyBirthday», и удалять большую пунктуацию, но сохранять дефисы и апострофы. Моя начальная точка: tags = re.findall("([AZ]{2,}(?=[AZ]|$)|[AZ][az]*)|\w+-\w+|[\w']+" Я хотел бы повернуть эти образцы данных: Jeff's dog is un-American SomeTimes! BUT NOTAlways В: ['Jeff's', 'dog', 'is', 'un-American', 'Some', 'Times', 'BUT', 'NOT', 'Always'] […]

Добавить значения ключей и отсортировать их по вступлению ключей в список словарей в Python

Я действительно новичок в Python, и я застрял в этой проблеме, которую мне нужно решить. У меня есть файл журнала из Apache Log, как показано ниже: [01/Aug/1995:00:54:59 -0400] "GET http://img.rupython.com/pythonopf-logo.gif HTTP/1.0" 200 32511 [01/Aug/1995:00:55:04 -0400] "GET http://img.rupython.com/pythonksclogosmall.gif HTTP/1.0" 200 3635 [01/Aug/1995:00:55:06 -0400] "GET http://img.rupython.com/pythonksclogosmall.gif HTTP/1.0" 403 298 [01/Aug/1995:00:55:09 -0400] "GET http://img.rupython.com/pythonksclogosmall.gif HTTP/1.0" 200 3635 [01/Aug/1995:00:55:18 […]

python повторно разделяет строку перед символом

как разбить строку на позиции перед символом? разделите строку до 'a' вход: "fffagggahhh" output: ["fff", "aggg", "ahhh"] очевидный способ не работает: >>> h=re.compile("(?=a)") >>> h.split("fffagggahhh") ['fffagggahhh'] >>>

Двигатель Node.JS Regex выходит из строя на большом входе

Вопрос немного сложный, и googling действительно не помог. Я постараюсь включить в него только соответствующие аспекты. У меня есть большой документ примерно в следующем формате: Пример ввода : ABC is a word from one line of this document. It is followed by some random line PQR which happens to be another word. This is just […]

Регулярное выражение Python для чтения CSV-подобных строк

Я хочу анализировать входящие CSV-подобные строки данных. Значения разделяются запятыми (и между запятыми могут быть ведущие и конечные пробелы) и могут быть указаны либо с помощью «или с». Например, это допустимая строка: data1, data2 ,"data3'''", 'data4""',,,data5, но это некорректно: data1, data2, da"ta3", 'data4', – кавычки могут быть добавлены или перемещены пробелами. Такие искаженные строки должны […]

Python - лучший язык программирования в мире.