Tag: regex

Как удалить блоки комментариев только для ASP в Python (на Sublime Text 2)?

Я играю с Python Regex, чтобы очистить код, созданный для страниц классического ASP. Мне нужно удалить блоки комментариев SINGLE LINE или MULTILINE ASP. (строки комментариев ASP обычно начинаются с цитаты ). Я хочу сопоставить блоки, не содержащие исполняемого кода, а только блоки, содержащие комментарии. Wether в комментариях есть пробелы или пробелы, мне нужно заменить эти […]

Извлечение нескольких совпадений с использованием Regex в Python

Я новичок в регулярном выражении и не могу понять, как создать массив, содержащий совпадения, такие как \nmedia_1.ts , \nmedia_2.ts и т. Д. Из строки s как показано ниже. Любые предложения о том, как выражение регулярного выражения можно улучшить? s = '#EXTM3U\n#EXT-X-VERSION:3\n#EXT-X-TARGETDURATION:17\n#EXT-X-MEDIA-SEQUENCE:1\n#EXTINF:16.667,\nmedia_1.ts?wowzasessionid=184420502\n#EXTINF:16.666,\nmedia_2.ts?wowzasessionid=184420502\n#EXTINF:16.667,\nmedia_3.ts?wowzasessionid=184420502\n#EXTINF:16.667,\nmedia_4.ts?wowzasessionid=184420502\n#EXTINF:16.666,\nmedia_5.ts?wowzasessionid=184420502\n#EXTINF:16.667,\nmedia_6.ts?wowzasessionid=184420502\n#EXTINF:16.667,\nmedia_7.ts?wowzasessionid=184420502\n#EXTINF:16.666,\nmedia_8.ts?wowzasessionid=184420502\n#EXTINF:16.667,\nmedia_9.ts?wowzasessionid=184420502\n#EXTINF:16.667,\nmedia_10.ts?wowzasessionid=184420502\n#EXTINF:16.666,\nmedia_11.ts?wowzasessionid=184420502\n#EXTINF:16.667,\nmedia_12.ts?wowzasessionid=184420502\n#EXTINF:16.667,\nmedia_13.ts?wowzasessionid=184420502\n#EXTINF:16.666,\nmedia_14.ts?wowzasessionid=184420502\n#EXTINF:16.667,\nmedia_15.ts?wowzasessionid=184420502' pattern = re.compile('nmedia_(.*?).ts', re.IGNORECASE) match = pattern.findall(s) match

Регулярное выражение Python. Матч и замена римских цифр

Нужна помощь с регулярными выражениями. Я хочу сопоставить некоторые римские цифры и заменить их на арабский. Прежде всего, если использовать (IX|IV|V?I{0,3}) для соответствия римским цифрам (от 1 до 9). Затем я добавляю некоторую логику в любое пространство (с некоторым текстом раньше) или ничего (начало / конец строки) с (?:^|\s)(?:\s|$) Итак, окончательно я (?:^|\s)(IX|IV|V?I{0,3})(?:\s|$) Он соответствует […]

Вытягивание зарплаты из спецификаций HTML-заданий различной структуры и обозначение зарплаты

Я ищу, чтобы как можно больше извлекать информацию о зарплате из спецификаций работы в родовом режиме (принимая во внимание множество способов оплаты зарплаты (с учетом и без слова «Зарплата», предшествующего этому, с нашими без отстающих нулей, диапазонов и т.д.) Принимая три разных спецификаций задания, я urllib2 HTML с urllib2 , затем выполняю начальный нечувствительный к […]

findall () regex при итерации через файлы, ищущие слово из списка

У меня есть код, который выполняет итерацию через файлы, рекурсивно ищущие слово из списка. Если он найден, он распечатает файл, в котором он был найден, в строке, которая была обыскана, и строка была найдена. Моя проблема в том, что при поиске api также соответствует myapistring , «pass» соответствует «compass», «dev» соответствует «device» вместо фактического слова. […]

Найти и заменить строку между кавычками

Я читаю файл, и я хотел бы заменить любой текст, который появляется между двумя двойными кавычками, такими как: Если входной файл: Привет, я пример файла! «Привет, пример файла». «Я в основном здесь, чтобы получить эту цитату!» Выход должен быть: Привет, я пример файла! [color = x] «Привет, файл примера.» [/ color] [color = x] «Я […]

оптимальный метод для анализа json-объекта в файле данных

Я пытаюсь установить простой формат файла данных, и я работаю с этими файлами в Python для анализа. Формат в основном состоит из информации заголовка, за которой следуют данные. Для синтаксиса и будущих причин расширяемости я хочу использовать объект JSON для информации заголовка. Пример файла выглядит следующим образом: { "name": "my material", "sample-id": null, "description": "some […]

Python regex groupdict возвращает одиночные символы вместо строк для групп

Я сталкиваюсь с действительно запутанной проблемой с соответствием Regex в Python. У меня есть пара шаблонов регулярных выражений, которые отлично работают с инструментами отладки, такими как regex101: [Шаблон соответствия Hex & Oct] (Код в окне тестирования совпадает с содержимым файла в тестовом режиме консоли) [Шаблон соответствия Base64] (Далек от идеала, но минимальная длина 15 символов […]

Лексер PLY поддерживает «максимальный munch»?

Синтаксис многих языков программирования требует, чтобы они были маркированы в соответствии с принципом «максимальный мунч» . То есть эти жетоны должны быть построены из максимально возможного количества символов из входного потока. Лексер PLY, похоже, не применяет этот принцип. Например: import ply.lex as lex tokens = ('ASSIGNMENT', 'EQUALITY') t_ASSIGNMENT = r'[+\-*/]?=' t_EQUALITY = r'==' lexer = […]

Как разбить файл на куски с помощью разделителя строк в Python

Мне нужно загрузить потенциально большой файл csv в мое приложение. Каждый раздел этого файла обозначается #TYPE * . Как мне следует разбить его на куски и продолжить обработку на каждом куске? Каждый фрагмент представляет собой список заголовков, за которыми следуют все значения. Прямо сейчас я написал обработку для одного фрагмента, но я не уверен, как […]

Python - лучший язык программирования в мире.