Tag: regex

найти все возможные перекрывающиеся префиксы в слове, используя python

многие естественные языки имеют префиксы, которые добавляют какое-то значение слову. например: anti антивирус, co для координатора, counter для коллег для обнаружения stem эти префиксы должны быть разделены. предположим, что у вас есть список префиксов для определенного языка: prefix_list = ['c', 'ca', 'ata', 'de'] Как обрабатывать все возможные совпадения в слове "catastrophic" результат должен быть: ['c', […]

Обнаружение акцентов в словах (Python)

Вот сделка: я написал программу, которая находит все классы алгоритмов в словаре. Однако у меня проблема с акцентированными персонажами. В настоящее время мой код читает их, обрабатывает их, как будто они невидимы, но все же печатает какой-то код замены в конце в виде «\ xc3 \ ???». Я бы хотел отбросить все слова с акцентами, […]

Программа Python для выполнения совпадений ключевых слов для содержимого, присутствующего в двух файлах

Я использовал nltk для получения списка токенированных ключевых слов. Выход ['Natural', 'Language', 'Processing', 'with', 'PythonNatural', 'Language', 'Processingwith', 'PythonNatural', 'Language', 'Processing', 'with', 'Python', 'Editor', ':', 'Production', 'Editor', ':', 'Copyeditor'] У меня есть текстовый файл keyword.txt, который содержит следующие ключевые слова: Processing Editor Pyscripter Language Registry Python Как я могу сопоставить ключевые слова, полученные из токенизации, с […]

Регулярное выражение для разделителя пути в URL-адресе

У меня есть шаблон URL: «somepath / email /». Я не хочу писать регулярное выражение для сопоставления электронной почты, вместо этого я хочу что-либо, что не является разделителем путей для соответствия электронной почте. Предложите для этого регулярное выражение. Я использую Python и url для приложения Django, поэтому любая функция библиотеки также будет полезна, но я […]

Python Regex DUPLICATE_NAMES Флаг

Во многих сайтах регулярных выражений упоминается флаг (?J) позволяющий дублировать имена. Это существует в Python или существует ли способ разрешить дублирование имен в регулярном выражении? Он не указан в документах Python, но можно ли включить его, передав определенный флаг int? Можно ли вручную добавить эту поддержку?

Parse JSON Object в python без библиотеки json (с использованием только регулярного выражения)

В настоящее время я создаю небольшое приложение, используя API-интерфейс Instagram, который отвечает с помощью «объектов» JSON для операций GET. Чтобы получить ответ, я сейчас использую urllib2. Это часть задания с одного из курсов, в которых я сейчас участвую, и самая большая проблема заключается в том, что нам не разрешено использовать библиотеку JSON для быстрого анализа […]

словари и строки

Это мой код, который не работает: def myfunc(d): for name, pat in d.items(): originalstring = pat pattern = '#\w+#' pattern_obj = re.compile(pattern) replacement_string = '('+d['\\1']+')' d[name] = pattern_obj.sub(replacement_string, originalstring) return d Я получаю сообщение об ошибке: KeyError: '\\1'

Сопоставьте строки из файла и проанализируйте их на Python

У меня есть этот файл с разными строками, и я хочу взять только некоторую информацию из каждой строки (а не всей ее), вот пример того, как выглядит файл: 18:10:12.960404 IP 132.227.127.62.12017 > 134.157.0.129.53: 28192+ A? safebrowsing-cache.google.com. (47) 18:10:12.961114 IP 134.157.0.129.53 > 132.227.127.62.12017: 28192 12/4/4 CNAME safebrowsing.cache.l.google.com., A 173.194.40.102, A 173.194.40.103, A 173.194.40.104, A 173.194.40.105, A […]

Python – проблема соответствия шаблонов регулярных выражений после выполнения запроса sqlite

Я пытаюсь извлечь некоторую информацию из одной таблицы и сохранить ее в другой таблице, используя Sqlite и Python. Таблица 1 содержит список веб-сайтов в форме (www.abc.com). Я пытаюсь извлечь часть (abc) из каждой строки и сохранить ее в таблице 2, которая также поддерживает подсчет для каждого сайта. Если сайт уже существует в таблице 2, то […]

Преобразование китайских символов в числовые объекты в формате XML / HTML и в Unicode UTF-8?

У меня есть смесь английских слов и китайских иероглифов, и я хотел бы преобразовать текст в смесь английских слов и числовых элементов китайского языка в формате XML / HTML. Например, следующая смесь английских слов, цифр и китайских символов Title: 目录.doc Level: 1 PageNumber: 1 Begin Title: 1 C语言概述 Level: 1 PageNumber: 13 BeginTitle: 1.1 C语言的发展过程 […]

Python - лучший язык программирования в мире.