Tag: regex

Разделить сложные строки в Python динамически

У меня возникли трудности с организацией функции, которая будет обрабатывать строки так, как я хочу. Я рассмотрел несколько предыдущих вопросов 1 , 2 , 3 среди других, которые я отсортировал. Вот настройка, у меня есть хорошо структурированные, но переменные данные, которые нужно разделить от строки, считанной из файла, до массива строк. Следующие примеры демонстрируют некоторые […]

извлечь строку betwen две строки в пандах

У меня есть текстовый столбец, который выглядит так: http://start.blabla.com/landing/fb603?&mkw… Я хочу извлечь «start.blabla.com», который всегда находится между: http:// а также: /landing/ а именно: start.blabla.com Я делаю: df.col.str.extract('http://*?\/landing') Но это не сработает. Что я делаю не так?

Использование регулярного выражения в API Twitter

Я использую Tweedy Library в Python для поиска твитов. Мне интересно, если я могу использовать регулярное выражение для поиска твитов. Я использую следующий код: query = 'ARNOLD or SYLVESTER' for tweet in tweepy.Cursor(api.search, query, count=100, result_type="recent", include_entities=True, lang="en").items(): Например, можно ли искать все твиты, которые используют «ARNOLD» или «SYLVESTER» (все капитальные / одиночные слова), игнорировать […]

разделение строки с точками на слова, но со специальным случаем

Не уверен, есть ли простой способ разделить следующую строку: 'school.department.classes[cost=15.00].name' В этом: ['school', 'department', 'classes[cost=15.00]', 'name'] Примечание. Я хочу сохранить 'classes[cost=15.00]' неповрежденными.

Python lambda if заявление re.sub

Поэтому я использую следующее регулярное выражение для разбора текста и захвата информации из определенного словаря: re.sub(r'(<Q\d+>)',lambda m: quotes[m.group(1)][1],text) То, что я хочу сделать, только заменит его, заменит ли он что-либо в отдельном словаре. Логически это будет выглядеть так: re.sub(r'(<Q\d+>)',lambda m: quotes[m.group(1)][1] if quotes[m.group(1)][1] in d,text) теперь, если мне нужно запустить следующее, я получаю следующую синтаксическую […]

Семантика разделения Python в Java

Когда я разбиваю строку на python, смежные разделители пространства объединяются: >>> str = "hi there" >>> str.split() ['hi', 'there'] В Java разделители не объединены: $ cat Split.java class Split { public static void main(String args[]) { String str = "hi there"; String result = ""; for (String tok : str.split(" ")) result += tok + […]

Регулярное выражение для пропуска некоторых символов

Я пытаюсь очистить строку так, чтобы она не имела никаких знаков препинания или числа, она должна иметь только az и AZ. Например, данная строка: "coMPuter scien_tist-s are,,, the rock__stars of tomorrow_ <cool> ????" Требуемый вывод: ['computer', 'scientists', 'are', 'the', 'rockstars', 'of', 'tomorrow'] Мое решение re.findall(r"([A-Za-z]+)" ,string) Мой вывод ['coMPuter', 'scien', 'tist', 's', 'are', 'the', 'rock', […]

Regex: сопоставить строку с шаблоном (что может не существовать)

Я пытаюсь проанализировать XML-документ, используя токенизатор regex в Python (это конечный набор, поэтому регулярное выражение просто отлично!), И у меня возникают проблемы с соответствием комментариям. Формат этих комментариев находится в форме <!–This is a comment–> где сам комментарий может содержать все виды не буквенно-цифровых символов (включая '-') Я хочу сопоставить их таким образом, что я […]

Совпадение unicode в регулярных выражениях ply

Я сопоставляю идентификаторы, но теперь у меня есть проблема: мои идентификаторы могут содержать символы Unicode. Поэтому старого способа делать вещи недостаточно: t_IDENTIFIER = r"[A-Za-z](\\.|[A-Za-z_0-9])*" В моем парсере разметки я сопоставляю символы Юникода, разрешая все символы, кроме тех, которые я явно использую, потому что у моего языка разметки есть только два или три символа, которые мне […]

Ошибка с функцией re.split и re.DOTALL флаг в модуле python 2.7.1

У меня Mac работает Lion и Python 2.7.1. Я замечаю что-то очень странное из модуля re. Если я запустил следующую строку: print re.split(r'\s*,\s*', 'a, b,\nc, d, e, f, g, h, i, j, k,\nl, m, n, o, p, q, r') Я получаю этот результат: ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', […]

 
Interesting Posts for Van-Lav
Python - лучший язык программирования в мире.