Tag: regex

Как запрашивать документы в mongodb (pymongo), где все ключевые слова существуют в поле?

У меня есть список ключевых слов: keywords = ['word1', 'word2', 'word3'] На данный момент я запрашиваю только одно ключевое слово: collection.find({'documenttextfield': {'$regex': ' '+keyword+' '}}) Я не являюсь гуру в регулярном выражении, поэтому я делаю регги с пробелами на стороне ключевого слова, чтобы найти точное совпадение. Но теперь я хочу, имея список keywords , запрашивать […]

Pandas MultiIndex из регулярного выражения на столбце

У меня есть рамка данных pandas, которая выглядит df = pd.DataFrame( [ ['JoeSmith', 5], ['CathySmith', 3], ['BrianSmith', 12], ['MarySmith', 67], ['JoeJones', 23], ['CathyJones', 98], ['BrianJones', 438], ['MaryJones', 75], ['JoeCollins', 56], ['CathyCollins', 125], ['BrianCollins', 900], ['MaryCollins', 321], ], columns = ['Name', 'Value'] ) print df Name Value 0 JoeSmith 5 1 CathySmith 3 2 BrianSmith 12 […]

Невозможно очистить определенные значения веб-сайта с помощью регулярного выражения

Я пытался очистить информацию внутри определенного набора тэгов на веб-сайте и столкнуться с множеством проблем. Мой код выглядит так: import urllib import re def scrape(): url = "https://www.theWebsite.com" statusText = re.compile('<div id="holdsThePtagsIwant">(.+?)</div>') htmlfile = urllib.urlopen(url) htmltext = htmlfile.read() status = re.findall(statusText,htmltext) print("Status: " + str(status)) scrape() К сожалению, возвращается только: "Status: []" Тем не менее, […]

CSV-файл с указанной запятой нельзя правильно разделить на Python

def csv_split() : raw = [ '"1,2,3" , "4,5,6" , "456,789"', '"text":"a,b,c,d", "gate":"456,789"' ] cr = csv.reader( raw, skipinitialspace=True ) for l in cr : print len( l ), l Эта функция выводит следующее: 3 ['1,2,3 ', '4,5,6 ', '456,789'] 6 ['text:"a', 'b', 'c', 'd"', 'gate:"456', '789"'] Как вы можете сказать, первая строка правильно разделена […]

Регулярное выражение для включения и исключения определенных IP-адресов

У меня есть функциональный код python 2.7, который извлекает IP-адреса из таблицы маршрутизации. Он извлекает только ip в формате xxxx / xx. Однако у меня есть проблема, исключая некоторые строки в таблице маршрутов. Например, эта строка: D 10.50.80.0/24 [90/3072] via 10.10.10.1, 3w6d, Vlan10 В этой строке все, о чем я забочусь, это 10.50.80.0/24. Поскольку это […]

Scrapy – внешний запрос для обработки на основе регулярного выражения

Я должен сканировать 5-6 доменов. Я хотел написать сканер как таковой, что запросы offsite, если содержит некоторый пример подстроки, установленный как [aaa, bbb, ccc], если внешний URL-адрес содержит подстроку из указанного выше набора, тогда он должен обрабатываться и не отфильтровываться. Должен ли я писать собственное промежуточное программное обеспечение или я могу просто использовать регулярное выражение […]

rpy2 Ошибка: «непризнанный escape в символьной строке»

У меня есть кусок кода в R, который я хотел бы вставить в свой код на Python. Для этого я использую rpy2. Код R включает в себя множество регулярных выражений, и кажется, что rpy2 не обрабатывает их правильно или, возможно, я не правильно их кодирую. Вот пример фрагмента кода, слова и другое, что не работает: […]

Откройте одинаково смежные строки с регулярным выражением и python

Рассмотрим этот текст: … bedeubedeu France The Provençal name for tripe bee balmbee balm Bergamot beechmastbeechmast Beech nut beech nutbeech nut A small nut from the beech tree, genus Fagus and Nothofagus, similar in flavour to a hazelnut but not commonly used. A flavoursome oil can be extracted from them. Also called beechmast beechwheatbeechwheat Buckwheat […]

Найти файл в каталоге с помощью python путем частичного имени

У меня есть каталог с несколькими сотнями тысяч файлов. Все они следуют этому формату: datetime_fileid_metadata_collect.txt Конкретный пример выглядит следующим образом: 201405052359559_0002230255_35702088_collect88.txt Я пытаюсь написать сценарий, который вытаскивает и копирует отдельные файлы, когда я предоставляю его, это список идентификаторов файлов. Например, у меня есть текстовый файл fileids.txt, который fileids.txt 0002230255 0001627237 0001023000 Это пример сценария, который […]

Как создать новые столбцы для хранения данных столбца дублирующегося идентификатора?

У меня есть этот фреймворк: ID key 0 1 A 1 1 B 2 2 C 3 3 D 4 3 E 5 3 E Я хочу создать дополнительные key столбцы – необходимо – сохранить данные в столбце key когда есть дубликаты IDs Это фрагмент вывода: ID key key2 0 1 AB # Note: ID#1 […]

Python - лучший язык программирования в мире.