Tag: regex

Regex для захвата всего между фигурными фигурными скобками в HTML-источнике

Я посмотрел на подобные вопросы, но, к сожалению, не нашел решения. В настоящее время я пытаюсь классифицировать веб-сайты на основе контента, и для этого я получаю их источник HTML и выполняю на нем какую-то классификацию документов / ключевых слов. Прямо сейчас, я заменяю много стоп-слов, но я хочу исключить такие вещи, как объявления функций в […]

найти временную метку date_format с регулярным выражением

Я думаю о функции, которая может найти временную метку в файле журнала, передав DATEFORMAT в качестве аргумента, например: def find_some_dates(logfile, timestamp_format='%d/%b/%Y %H:%M:%S.%f'): # find timestamps by timestamp_format # pass it to datetime.strptime # return unix timestamp Временная метка может находиться где угодно внутри линии. Например [1] 17/Dec/2014 15:00:21.777 something happened On 17/Dec/2014 15:00:21.777 something happened […]

find_all не находит текст в смешанном контенте

У меня есть немного кода очистки экрана в Python, используя BeautifulSoup, который дает мне головную боль. Небольшое изменение html сделало мой разрыв кода, но я не понимаю, почему он не работает. Это в основном демонстрация того, как выглядел html при анализе: soup=BeautifulSoup(""" <td> <a href="https://alink.com"> Foo Some text Bar </a> </td> """) links = soup.find_all('a',text=re.compile('Some […]

контактная информация извлечения с помощью веб-сканирования с помощью scrapy / python

Я очень новичок в scrapy и python в целом, но я действительно хочу учиться, и я приложил много усилий! Я пытаюсь просканировать eb5info.com, выбрать каждый отдельный региональный центр и скопировать номера телефонов и электронные письма от каждого. Тем не менее, когда я сканирую, он сообщил мне, что были облобраны 0 веб-сайтов. Любая помощь будет очень […]

извлекать информацию из строки

Следующий код работает, но я не могу извлечь нужную мне информацию. Я могу использовать Суп или мне нужно регулярное выражение? from bs4 import BeautifulSoup import urllib2 mynumber='1234567890' url="http://www.nccptrai.gov.in/nccpregistry/saveSearchSub.misc?phoneno="+mynumber page=urllib2.urlopen(url) soup = BeautifulSoup(page.read()) table = soup.findAll("table")[1] myl=[item.text.strip() for item in table.find_all('td')] import re re.findall(r'is:\s*[^,]*' , myl[1]) Ожидаемый результат – 4 параметра, упомянутых в первой строке первого […]

Регулярное выражение Python для соответствия определенной последовательности символов

Я очень простой пользователь регулярных выражений в Python и нуждаюсь в помощи некоторых экспертов для решения проблемы с использованием регулярных выражений. Я пытаюсь извлечь некоторую информацию из строки со следующим набором правил. Начинается с $ ( После запуска тега должно быть слово. Возможно , следующее слово может содержать любые символы, кроме « и » [ […]

Пример шаблона регулярного выражения Django для URL-адреса: q = поисковый запрос не работает

У меня есть приложение Django, которое служит инструментом поиска. Проблема, с которой я сталкиваюсь, заключается в том, что я не могу получить страницу результатов поиска, работающую через urls.py views.py def search(request): new_results = [] error = True if "q" in request.GET: query = request.GET["q"].strip() results = graph_search.main(query) for result in results: result[3] = result[3].decode('unicode_escape').encode('ascii', 'ignore') […]

Нужна помощь в извлечении данных из файла

Я новичок на питоне. Итак, у моего файла есть строки, которые выглядят так: -1 1: -0,294118 2: 0,487437 3: 0,180328 4: -0,292929 5: -1 6: 0,00149028 7: -0,53117 8: -0,0333333 Мне нужна помощь, подходящая для правильного кода python для извлечения каждого поплавка, которому предшествует двоеточие, а затем пробел (например: [-0.294118, 0.487437,etc…] ). Я пробовал dataList […]

объединить строки в CSV с разным размером python

У меня есть файл csv, структурированный следующим образом: | publish_date |sentence_number|character_count| sentence | —————————————————————————- | 1 | | | | —————————————————————————- | 02/01/2012 00:12:00 | -1 | 0 | Sentence 1 here. | —————————————————————————- | 02/01/2012 00:12:00 | 0 | 14 | Sentence 2 here. | —————————————————————————- | 02/01/2012 00:12:00 | 1 | 28 | […]

Разбор сообщения с различными специальными символами и разбиение на список (re и regex) Python 2.7

Я пытаюсь разобрать сообщение, которое получает следующие разделители (без кавычек): Delimiter1: "@@@" – после чего сообщение Delimiter2: "!!!" – Сигнал Delimiter3: "—" – после чего сообщение Delimiter4: "###" – Следующее сообщение Delimiter5: "$$$" – после чего сообщение Я до сих пор: import re mystring = '@@@useradd—userfirstadded###userremoved!!!$$$message' result = re.split('\\@\@\@|\\!\!\!|\\—|\\#\#\#|\\$\$\$',mystring) print result Мой результат до сих […]

Python - лучший язык программирования в мире.