Tag: utf 8

Совпадение регулярных выражений Python с символами UTF-8

У меня есть проект selenium / python, который использует регулярное выражение для поиска элементов html. Эти атрибуты элементов иногда включают в себя датские / норвежские символы ÆØÅ. Проблема в этом фрагменте ниже: if (re.match(regexp_expression, compare_string)): result = True else : result = False regex_expression и compare_string обрабатываются до того, как будет выполнено соответствие регулярному выражению. […]

Можете искать и сообщать работу с закодированными UTF-8 документами в Python?

У меня есть приложение, которое генерирует несколько файлов журнала> 500 МБ. Я написал несколько утилит в Python, что позволяет мне быстро просматривать файл журнала и находить интересующие его данные. Но теперь я получаю несколько наборов данных, где файл слишком велик, чтобы загрузить все это в память. Поэтому я хочу отсканировать документ один раз, создать индекс, […]

Храните произвольные двоичные данные в системе, принимающей только действительный UTF8

У меня есть произвольные двоичные данные. Мне нужно сохранить его в системе, которая ожидает действительный UTF8. Он никогда не будет интерпретироваться как текст, мне просто нужно положить его туда и получить его и восстановить мои двоичные данные. Очевидно, base64 будет работать, но у меня не может быть такой инфляции. Как я могу легко достичь этого […]

Почему SQLAlchemy create_engine с charset = utf8 возвращает тип python <str>, а не тип <unicode>?

Используя Python 2.7 и SQLAlchemy 0.7, я подключаюсь к базе данных MySQL с помощью команды: engine = create_engine('mysql://username:password@host/dbname?charset=utf8',echo=False) Согласно документам SQLAlchemy, установка charset = utf8 автоматически подразумевает use_unicode = 1, так что все строки должны возвращаться как unicode. http://docs.sqlalchemy.org/en/rel_0_7/dialects/mysql.html специально дает пример кодировка клиента #set для utf8; все строки возвращаются как unicode create_engine ('mysql + […]

Как хранить данные на разных языках (не английские) в поле MongoDB и извлекать одни и те же данные?

Я собираюсь хранить не английские (например, бенгальский, хинди) данные в поле MongoDB. This is my approach:- import pymongo from pymongo import MongoClient client = MongoClient() db = client.testdb db['testing'].save({'data':'শুভ নববর্ষ'}) У меня есть Исключение. Исключительное значение: не-ASCII-символ '\ xe0' в файле /test/views.py в строке 5, но не объявлена ​​кодировка; см. http://www.python.org/peps/pep-0263.html для получения дополнительной информации […]

Безопасное удаление всего html-кода из строки в python

Я читал много вопросов и ответов о том, как удалить весь код html из строки с помощью python, но никто не удовлетворился. Мне нужен способ удалить все теги, сохранить / преобразовать объекты html и хорошо работать с строками utf-8. Очевидно, BeautifulSoup уязвим для некоторых специально созданных html-строк, я создал простой парсер с HTMLParser, чтобы получить […]

Python utf-8, как выровнять печать

У меня есть массив, содержащий японские персонажи, а также «нормальный». Как выровнять их? #!/usr/bin/python # coding=utf-8 a1=['する', 'します', 'trazan', 'した', 'しました'] a2=['dipsy', 'laa-laa', 'banarne', 'po', 'tinky winky'] for i,j in zip(a1,a2): print i.ljust(12),':',j print '-'*8 for i,j in zip(a1,a2): print i,len(i) print j,len(j) Вывод: する : dipsyします : laa-laa trazan : banarneした : poしました : […]

python и scrapy Проблема с кодировкой

Я просто не могу понять! 🙁 Я сбрасываю данные с сайта, закодированного utf-8, и это, по крайней мере, то, что он говорит: Content-Type: text/html;charset=utf-8 Я получаю список регулярных строк unicode с вызовом select select (): item['city']= element.select('//div[@id="bubble_2"]/div/text()').extract() Это список: [u'Westbahnhofstr.\xa010', u'72070\xa0T\xfcbingen'] Теперь я присоединяюсь к списку в одну строку юникода: item['city']= "".join(element.select('//div[@id="bubble_2"]/div/text()').extract()) Все идет нормально: […]

Текст с веб-сайта отображается как тарабарщина вместо иврита

Я пытаюсь получить строку с веб-сайта. Я использую модуль запросов для отправки запроса GET . text = requests.get("http://example.com") #send GET requests to the website print text.text #print the variable Однако по какой-то причине текст появляется в Gibberish вместо иврита: <div> <p>שרת</p> </div> Жестко, когда я нюхаю трафик с помощью Fiddler или просматриваю сайт в своем […]

Как ввести арабский текст в код Python?

мой проект состоит в том, чтобы идентифицировать настроение как положительное, так и отрицательное (анализ настроений) на арабском языке, для выполнения этой задачи я использовал NLTK и python, когда я вводил твиты в арабском языке, возникает ошибка >>> pos_tweets = [(' أساند كل عون أمن شريف', 'positive'), ('ما أحلى الثورة التونسية', 'positive'), ('أجمل طفل في العالم', […]

Python - лучший язык программирования в мире.