Tag: regex

Преобразование строки в словарь, где ключи не являются строками

Я разбираю html-файл, и в итоге получается нечто похожее на словарь python … за исключением того, что ключи не являются строками. Из-за этого я не могу использовать ast.literal_eval() или json.loads() . Строка выглядит так: x = '{name:'Berlin, Germany', daypart:'night', href:'/en/de/berlin/10178/weather-forecast/178087', icon:'http://vortex.accuweather.com/adc2010http://img.rupython.com/pythonicons-numbered/33-m.png', bg:'cl', temp:'22', realfeel:'22', text:'Clear'}' Я хочу преобразовать это в словарь python, где ключи также […]

Scrapy LinkExtractor – какой RegEx должен следовать?

Я пытаюсь очистить категорию от амазонки, но ссылки, которые я получаю в Scrapy, отличаются от ссылок в браузере. Теперь я пытаюсь следить за следующей страницей и в Scrapy (напечатал response.body в txt-файле). Я вижу эти ссылки: <span class="pagnMore">…</span> <span class="pagnLink"><a href="/s?ie=UTF8&page=4&rh=n%3A2619533011%2Ck%3Apet%20supplies%2Cp_72%3A2661618011%2Cp_n_date_first_available_absolute%3A2661609011" >4</a></span> <span class="pagnCur">5</span> <span class="pagnLink"><a href="/s?ie=UTF8&page=6&rh=n%3A2619533011%2Ck%3Apet%20supplies%2Cp_72%3A2661618011%2Cp_n_date_first_available_absolute%3A2661609011" >6</a></span> <span class="pagnMore">…</span> <span class="pagnDisabled">20</span> <span class="pagnRA"> <a […]

Правила скрипирования и регулярное выражение

Я пытаюсь использовать Scrapy для извлечения информации с сайта geonames.org. В частности, я хочу получить 10 крупнейших городов для каждой страны. Мой стартовый URL: http://www.geonames.org/countries/ . На этой странице я хочу следить за каждым URL-адресом, который соответствует регулярному выражению: /countries/\w{2}/..html Затем на последующих страницах (это страницы страны), я хочу следовать URL-адресу со следующей структурой: http://www.geonames.org/ […]

Python's BeautifulSoup find_all Метод: включение и исключение с помощью RegEx в одном поиске

У меня вопрос относительно регулярных выражений и Python (2.6) BeautifulSoup (4.4.0): Если я это сделаю: import re re_expr = re.compile(r"(?!.*\bthis\b).*\bcol\b") a = u"col this" b = u"col" print re.search(re_expr, a) #None print re.search(re_expr, b) #<_sre.SRE_Match object at 0x0209EEC8> Я получаю не попадание в первый поиск и попадание во второй поиск (как и ожидалось). Но если […]

Поворачивайте текстовые URL-адреса внутри DOM в ссылки на Python, возможно, с помощью lxml

У меня есть документ HTML, в котором есть как теги ссылок, так и текстовые URL. Я хотел бы обернуть текстовые URL в теги привязки, оставив теги существующих ссылок без изменений. Этот фрагмент превращает все URL-адреса в привязки, но он дважды обматывает существующие теги на якоря: def replace_url_to_link(value): # Replace url to link urls = re.compile(r"((https?):((//)|(\\\\))+[\w\d:#@%/;$()~_?\+-=\\\.&]*)", […]

Как исключить часть альтернативы из захвата?

Существует регулярное выражение: ((?:description|speed|type|peers)\s+set|classify) . Как исключить \s+set из группы захвата? Должно быть только description или speed type или peers или classify . Мы можем сделать это так: pattern = '^\s+"([A-Za-z]+)\.([_A-Za-z0-9-]+)"\s+"([^\s]+)"\s+((description|speed|type|peers)\s+set|classify)\s+"?(.+)"?' p = re.compile(pattern) path = 'some_file' fd = open(path) for l in fd.readlines(): m = p.search(l) if not m: continue g = m.groups() if […]

Подсчет фраз EXCEPT, когда им предшествует другая фраза в Python

Использование pandas в Python 2.7 Я пытаюсь подсчитать количество раз, когда фраза (например, «очень хорошая») появляется в кусках текста, хранящихся в CSV-файле. У меня есть несколько фраз и несколько фрагментов текста. Я преуспел в этой первой части, используя следующий код: for row in df_book.itertuples(): index, text = row normed = re.sub(r'[^\sa-zA-Z0-9]', '', text).lower().strip() for row […]

QRegEx выделить все между фигурными скобками

Я пытаюсь получить регулярное выражение для соответствия тексту между фигурными фигурными скобками Следующий вопрос SO . Дай мне начало, но это не работает для меня. И я не уверен, что я делаю неправильно. Рассмотрим следующее: The {quick} brown fox {jumped over the} lazy old {dog}. While {the [0ld] man} spoke {to the} gardener. То, что […]

Утечка памяти (ish?) При использовании re и mmap

У меня возникла проблема с запуском поиска регулярных выражений через большой (30-ий GB) файл mmap ped в python 3.4 (64-разрядная Windows). В основном, что я наблюдаю, это то, что между совпадением попадания, объем памяти поднимается примерно до количества байтов между совпадениями. На самом деле это не грохот, но размер диска достаточно велик, чтобы замедлить другие […]

Между двойными фигурными фигурными скобками: замените конкретный текст

У меня есть строка (Python 2.7.3), которая отображается как шаблон в Django, но я не думаю, что это специфично для Django. Строка поступает из файла document.xml внутри файла docx. Я выдаю документ xml, который его отображает, и помещает его обратно в docx для некоторого простого типа типа слияния. Одна из проблем, помимо очевидных ограничений на […]

Interesting Posts for Van-Lav

Пакет Python устанавливается с помощью pip или easy_install из repos

Неожиданный формат при запуске StanfordPOSTagger с NLTK для китайского

Ищет обратный url_for в Flask

Есть ли питонический способ присвоения значений переменным при передаче из командной строки?

Соглашения об импорте основных программ Python

Как запустить программу на C и получить выход из программы с помощью Twisted Python

Как я могу отправить часть массива с разбросом?

Сортировка списка классов по алфавиту на основе переменной в классе python 2.7

Я не могу избавиться от \ xa0 в этой строке, используя python?

Pythonic способ итерации и / или перечисления с помощью двоичного 'переключателя'

ImportError: Ошибка загрузки DLL: указанный модуль не найден

Для подкласса unittest.TestCase не удается получить атрибут класса при выполнении тестовых процедур методом run

Как разрешить пользователю войти в систему на сайте Mezzanine?

Наследование SQLAlchemy

Ошибка импорта Python. Круглый импорт

Python - лучший язык программирования в мире.