Tag: regex

Python – RegEx для разделения текста на предложения (предложение-токенизация)

Я хочу составить список предложений из строки, а затем распечатать их. Я не хочу использовать NLTK для этого. Таким образом, он должен разбиваться на период в конце предложения, а не на десятичные знаки или аббревиатуры или название имени, или если предложение имеет .com. Это попытка регулярного выражения, которая не работает. import re text = """\ […]

Найти весь китайский текст в строке с помощью Python и Regex

Мне нужно было вырезать китайцев из кучи строк сегодня и искал простое регулярное выражение Python. Какие-либо предложения?

Perl Compatible Regular Expression (PCRE) в Python

Я должен разбирать некоторые строки на основе PCRE в Python, и я не знаю, как это сделать. Строки, которые я хочу разборки, выглядят так: match mysql m/^.\0\0\0\n(4\.[-.\w]+)\0…\0/sp/MySQL/ i/$1/ В этом примере мне нужно получить следующие элементы: "m/^.\0\0\0\n(4\.[-.\w]+)\0…\0/s" ; "p/MySQL/" ; "i/$1/" Единственное, что я нашел в отношении манипуляции с PCRE в Python, это этот модуль: […]

Рекурсивный шаблон в регулярном выражении

Это очень сильно связано с регулярным выражением, чтобы соответствовать внешним скобкам, однако я специально хочу знать, как или можно ли использовать рекурсивный шаблон этого регулярного выражения ? Я еще не нашел пример python, используя эту стратегию, поэтому подумайте, что это должен быть полезный вопрос! Я видел некоторые утверждения о том, что рекурсивные шаблоны могут использоваться […]

Греп и Питон

Мне нужен способ поиска файла с помощью grep через регулярное выражение из командной строки Unix. Например, когда я ввожу в командной строке: python pythonfile.py 'RE' 'file-to-be-searched' Мне нужно регулярное выражение 'RE' для поиска в файле и распечатка соответствующих строк. Вот код, который у меня есть: import re import sys search_term = sys.argv[1] f = sys.argv[2] […]

Как я re.search или re.match для целого файла, не читая все это в памяти?

Я хочу, чтобы иметь возможность запускать регулярное выражение для всего файла, но я хотел бы иметь возможность не читать весь файл в памяти сразу, как я могу работать с довольно большими файлами в будущем. Есть ли способ сделать это? Благодаря! Уточнение: я не могу читать строки за строкой, потому что он может охватывать несколько строк.

Как использовать регулярное выражение в lxml xpath?

Я использую такую ​​конструкцию: doc = parse(url).getroot() links = doc.xpath("//a[text()='some text']") Но мне нужно выбрать все ссылки, у которых есть текст, начинающийся с «некоторого текста», поэтому мне интересно, есть ли способ использовать regexp здесь? Не нашел ничего в документации lxml

Regex для существования некоторых слов, порядок которых не имеет значения

Я хотел бы написать регулярное выражение для поиска существования некоторых слов, но порядок их появления не имеет значения. Например, найдите «Тим» и «Глупый». Мое регулярное выражение – Tim.*stupid|stupid.*Tim . Но возможно ли написать более простое регулярное выражение (например, так, что два слова появляются только один раз в самом регулярном выражении)?

Как обрабатывать кодировку ответа из urllib.request.urlopen ()

Я пытаюсь найти веб-страницу с использованием регулярных выражений, но я получаю следующую ошибку: TypeError: не может использовать шаблон строки для объекта с байтом Я понимаю, почему, urllib.request.urlopen () возвращает поток bytestream, и поэтому, по крайней мере, я предполагаю, re не знает кодировку для использования. Что я должен делать в этой ситуации? Есть ли способ указать […]

Что такое «необработанное строковое регулярное выражение» и как вы можете его использовать?

Из документации python по регулярному выражению относительно символа '\' : Решение состоит в использовании нотной строки Python для регулярных выражений; обратная косая черта не обрабатывается каким-либо особым образом в строковом литерале с префиксом 'r' . Таким образом, r"\n" представляет собой двухсимвольную строку, содержащую '\' и 'n' , а "\n" – односимвольная строка, содержащая новую строку. […]

Python - лучший язык программирования в мире.