Tag: unicode

Согласование границ слова Unicode в Python

Чтобы соответствовать границам слов Юникода [как определено в Приложении № 29 ] в Python, я использовал пакет regex с флагами regex.WORD | regex.V1 regex.WORD | regex.V1 ( regex.UNICODE должен быть по умолчанию, поскольку шаблон является строкой Unicode) следующим образом: >>> s="here are some words" >>> regex.findall(r'\w(?:\B\S)*', s, flags = regex.V1 | regex.WORD) ['here', 'are', 'some', […]

Strange `UnicodeEncodeError`, используя` os.path.exists`

В веб-приложении (с использованием Flask) появляется следующая ошибка: Unable to retrieve the thumbnail for u'/var/data/uploads/2012/03/22/12 Gerd\xb4s Banjo Trio 1024.jpg' Traceback (most recent call last): File "/var/www/beta/env/lib/python2.7/site-packages/dblib-1.0dev3-py2.7.egg/dblib/orm/file.py", line 169, in get_thumbnail if not exists(filename): File "/usr/lib/python2.7/genericpath.py", line 18, in exists os.stat(path) UnicodeEncodeError: 'ascii' codec can't encode character u'\xb4' in position 52: ordinal not in range(128) Обратите […]

Как заставить строки Python 2.x Unicode не печатать как u'string '?

В настоящее время я тестирую веб-сервис, который возвращает большое количество данных JSON в виде словарей. Ключи и значения для этих словарей – все строки Юникода, и, таким образом, они печатаются как {u'key1':u'value', u'key2':u'value2'} при печати на экране в интерактивном интерпретаторе. Теперь представьте, что это трехуровневый, 40-элементный словарь. Все эти символы персонажа загромождают дисплей, что затрудняет […]

Как переносить синтаксический символ (Unicode) с регулярными выражениями?

Я пишу простой анализатор регулярных выражений для вывода утилиты sensors на Ubuntu. Вот пример строки текста, которую я разбора: temp1: +31.0°C (crit = +107.0°C) И вот регулярное выражение, которое я использую, чтобы сопоставить это (в Python): temp_re = re.compile(r'(temp1:)\s+(\+|-)(\d+\.\d+)\W\WC\s+' r'\(crit\s+=\s+(\+|-)(\d+\.\d+)\W\WC\).*') Этот код работает так, как ожидалось, и соответствует приведенному выше примеру текста. Единственные биты, которые […]

Полоса \ n \ t \ r в scrapy

Я пытаюсь вырезать символы \ r \ n \ t с помощью scrapy spider, создавая затем json-файл. У меня есть объект описания, который заполнен новыми строками, и он не выполняет то, что я хочу: сопоставление каждого описания с заголовком. Я попытался с картой (unicode.strip ()), но на самом деле это не работает. Являясь новичком в […]

Python: обрабатывать сломанные байты unicode при разборе строки JSON

Мой код создает некоторый контент с сайта UserVoice. Как вы знаете, UserVoice – это дерьмовое программное обеспечение, которое не может правильно обрабатывать данные; действительно, чтобы уменьшить количество текста на странице поиска, они разрезают текст, скажем, 300 символов, а затем добавляют «…» до конца. Дело в том, что они не заботятся обрезать середину многобайтового символа , […]

Преобразовать hash.digest () в unicode

import hashlib string1 = u'test' hashstring = hashlib.md5() hashstring.update(string1) string2 = hashstring.digest() unicode(string2) UnicodeDecodeError: 'ascii' codec can't decode byte 0x8f in position 1: ordinal not in range(128) Строка должна быть unicode для того, чтобы она была для меня использована, можно ли это сделать? Использование python 2.7, если это помогает …

Заменить новые строки в строке Unicode

Я пытаюсь заменить символы новой строки в строке юникода и, кажется, не хватает некоторых магических кодов. В моем конкретном примере я работаю над AppEngine и пытаюсь поместить заголовки с HTML-страниц в db.StringProperty() в моей модели. Поэтому я делаю что-то вроде: link.title = unicode(page_title,"utf-8").replace('\n','').replace('\r','') и я получаю: Property title is not multi-line Существуют ли другие коды, […]

Набор символов набора для установки pyMySQL

Я разрабатываю довольно простое веб-приложение с использованием Flask и MySQL. Я борюсь с unicode. Пользователи иногда вставляют данные, которые они копируют из Word, и они падают со старыми умными цитатами u'\u201c' . Немногие исследования показывают, что соединение, которое у меня связано с MySQL, использует кодировку Latin1 (по-видимому, по умолчанию). Как я могу указать для него […]

Есть ли простой способ сделать работу юникода в python?

Я пытаюсь разобраться с unicode в python 2.7.2. Я знаю, что есть .encode('utf-8') вещь, но 1/2 времени, когда я добавляю его, я получаю ошибки, и 1/2 раза, когда я не добавляю его. Я получаю ошибки. Есть ли способ сказать python – что я считал современным и современным языком, чтобы просто использовать unicode для строк, а […]

Python - лучший язык программирования в мире.