Tag: regex

Регулярное выражение Python – разделение буквенно-цифровых символов, но удаление и объединение переносимых слов

Я анализирую более двух миллионов текстовых файлов для проекта и нуждаюсь в помощи с регулярным выражением, чтобы сделать это быстрее . Мне нужно разбить слова, чтобы я мог это сделать, используя: text_file = re.sub(r'\W+',' ', text_file) Однако для переносимых слов я хотел бы удалить дефис, но объединить слово (то есть некоммерческая была бы некоммерческой, а […]

regex, чтобы соответствовать словам длины, указанной в строке

Я пытаюсь проанализировать вывод текста из samtools mpileup. Я начинаю с строки s = '.$……+2AG.+2AG.+2AGGG' Всякий раз, когда у меня есть + за которым следует целое число n , я хотел бы выбрать n символов, следующих за этим целым, и заменить все на * . Поэтому для этого теста я бы '.$……+2AG.+2AG.+2AGGG' —> '.$……*.*.*GG' У […]

Как извлечь номера страниц из цитат с использованием Python и регулярных выражений?

Я пытаюсь извлечь номера страниц из цитат, используя регулярные выражения. Вот тестовые данные, с которыми я работаю: Название журнала, т. 20, № 2; п. 15 Название журнала, т. 20, № 2: имя человека (1990-2010 годы); п. 15 Название журнала, т. 20, № 2: имя человека (1990-2010 годы); С. 15-20 Название журнала, т. 20, № 2: […]

Поиск индекса второго совпадения регулярного выражения в python

Поэтому я пытаюсь переименовать файлы в соответствии с соглашением об именах для plex mediaserver. (SxxEyy) Теперь у меня есть тонна файлов, которые используют, например. 411 для S04E11. Я написал небольшую функцию, которая будет искать появление этого шаблона и заменить его на правильное соглашение. Как это : pattern1 = re.compile('[Ss]\\d+[Ee]\\d+') pattern2 = re.compile('[\.\-]\d{3,4}') def plexify_name(string): #If […]

Чистое регулярное выражение для удаления символов перед точкой или слэшем

Есть ли более чистое регулярное выражение, чем следующее? Я знаю, что я могу искать два разных регулярных выражения одновременно, объединяя их с | , Я удаляю все до первого появления a . или – с помощью следующего регулярного выражения и дополнительного пространства после них. re.sub("^[^-]*- |^[^.]*. ", "", some string)

Нечетное или четное число обратных косых черт и экранированный символ

У меня есть небольшая проблема со следующим кодом. import re pattern = re.compile(r"((?:^|[^\\@]|\\.)+)@") for text in [ r"ok@\@.py", r"ok@\\@.py", r"ok@\\\@.py", r"ok@\\\\@.py", r"ok@\\\\\@.py", ]: search = re.search(pattern, text) print('—', text, sep="\n") if search: print(pattern.sub(r"\1<star>", text)) else: print('<< NOTHING FOUND ! >>') Это печатает: — ok@\@.py ok<star>\@.py — ok@\\@.py ok<star>\\<star>.py — ok@\\\@.py ok<star>\\\<star>.py — ok@\\\\@.py ok<star>\\\\<star>.py — […]

Python / Django не добавляет слэш

По какой-то причине Django не добавляет косой черты в конце переменных, которые содержат числовые символы: test_A – работает (идет на test_A /) test_1 – нет (не добавляет / в конце – дает мне 404) У меня установлено промежуточное ПО и APPEND_SLASH = True. Есть предположения? Благодаря! url.conf: from django.conf.urls import patterns, url from dashboard import […]

Более чистый способ перемещения переименованных файлов при переходе по каталогу

Я создал скрипт, чтобы перешагнуть через свой каталог и переместить мои музыкальные файлы в свою музыкальную папку, переименовывая файлы с помощью библиотеки регулярных выражений, чтобы проверить, нумеруются ли файлы (поскольку я нахожу это раздражающим). Кажется, что скрипт работает нормально, так как я не сталкивался с какими-либо ошибками, но задавался вопросом, есть ли более чистый способ […]

Как удалить символы новой строки из строки, не удаляя новую строку из конца строки python?

Мой вход – это большой файл csv с такими строками, как: "7807371008","Sat Jan 16 00:07:46 +0000 2010","@bigg_robb welcome to the party life of politics","T 33.417474,-86.705343","al","23845121","1381","502","Wed Mar 11 22:38:27 +0000 2009","2468" Мой желаемый результат – это новый файл с первым и третьим столбцами только с удалением всех специальных символов: 7807371008, bigg robb welcome to the party […]

веб-скребок, регулярное выражение и итерация в python

У меня есть следующий url ' http://www.alriyadh.com/file/278?&page=1 ' Я хотел бы написать регулярное выражение для доступа к URL-адресам со страницы = 2 до страницы = 12 Например, этот URL-адрес необходим « http://www.alriyadh.com/file/278?&page=4 », но не страница = 14 Я считаю, что будет работать, это функция, которая перебирает указанные 10 страниц для доступа ко всем URL-адресам […]

Python - лучший язык программирования в мире.