Tag: unicode

Неверный перевод текста Devanagari в PyGame

У нас есть небольшое веб-приложение, которое мы хотим преобразовать во что-то родное. Сейчас у него много движущихся частей (бэкэнд, браузер и т. Д.), И мы хотели бы преобразовать его в одно жесткое приложение. Мы решили использовать PyGame для этого, и до сих пор это было прекрасно, за исключением проблемы с отображением шрифтов. Строка, которую я […]

Преобразование нулевых байтов в строку UTF-8

Я распаковываю несколько структур, которые содержат поля типа 's' из C. Поля содержат нулевые заполненные строки UTF-8, обработанные strncpy в коде C (обратите внимание на рудиментарное поведение этой функции). Если я декодирую байты, я получаю строку юникода с большим количеством символов NUL в конце. >>> b'hiya\0\0\0'.decode('utf8') 'hiya\x00\x00\x00' У меня создалось впечатление, что конечные нулевые байты […]

Согласование границ слова Unicode в Python

Чтобы соответствовать границам слов Юникода [как определено в Приложении № 29 ] в Python, я использовал пакет regex с флагами regex.WORD | regex.V1 regex.WORD | regex.V1 ( regex.UNICODE должен быть по умолчанию, поскольку шаблон является строкой Unicode) следующим образом: >>> s="here are some words" >>> regex.findall(r'\w(?:\B\S)*', s, flags = regex.V1 | regex.WORD) ['here', 'are', 'some', […]

Strange `UnicodeEncodeError`, используя` os.path.exists`

В веб-приложении (с использованием Flask) появляется следующая ошибка: Unable to retrieve the thumbnail for u'/var/data/uploads/2012/03/22/12 Gerd\xb4s Banjo Trio 1024.jpg' Traceback (most recent call last): File "/var/www/beta/env/lib/python2.7/site-packages/dblib-1.0dev3-py2.7.egg/dblib/orm/file.py", line 169, in get_thumbnail if not exists(filename): File "/usr/lib/python2.7/genericpath.py", line 18, in exists os.stat(path) UnicodeEncodeError: 'ascii' codec can't encode character u'\xb4' in position 52: ordinal not in range(128) Обратите […]

Как заставить строки Python 2.x Unicode не печатать как u'string '?

В настоящее время я тестирую веб-сервис, который возвращает большое количество данных JSON в виде словарей. Ключи и значения для этих словарей – все строки Юникода, и, таким образом, они печатаются как {u'key1':u'value', u'key2':u'value2'} при печати на экране в интерактивном интерпретаторе. Теперь представьте, что это трехуровневый, 40-элементный словарь. Все эти символы персонажа загромождают дисплей, что затрудняет […]

Как переносить синтаксический символ (Unicode) с регулярными выражениями?

Я пишу простой анализатор регулярных выражений для вывода утилиты sensors на Ubuntu. Вот пример строки текста, которую я разбора: temp1: +31.0°C (crit = +107.0°C) И вот регулярное выражение, которое я использую, чтобы сопоставить это (в Python): temp_re = re.compile(r'(temp1:)\s+(\+|-)(\d+\.\d+)\W\WC\s+' r'\(crit\s+=\s+(\+|-)(\d+\.\d+)\W\WC\).*') Этот код работает так, как ожидалось, и соответствует приведенному выше примеру текста. Единственные биты, которые […]

Полоса \ n \ t \ r в scrapy

Я пытаюсь вырезать символы \ r \ n \ t с помощью scrapy spider, создавая затем json-файл. У меня есть объект описания, который заполнен новыми строками, и он не выполняет то, что я хочу: сопоставление каждого описания с заголовком. Я попытался с картой (unicode.strip ()), но на самом деле это не работает. Являясь новичком в […]

Python: обрабатывать сломанные байты unicode при разборе строки JSON

Мой код создает некоторый контент с сайта UserVoice. Как вы знаете, UserVoice – это дерьмовое программное обеспечение, которое не может правильно обрабатывать данные; действительно, чтобы уменьшить количество текста на странице поиска, они разрезают текст, скажем, 300 символов, а затем добавляют «…» до конца. Дело в том, что они не заботятся обрезать середину многобайтового символа , […]

Преобразовать hash.digest () в unicode

import hashlib string1 = u'test' hashstring = hashlib.md5() hashstring.update(string1) string2 = hashstring.digest() unicode(string2) UnicodeDecodeError: 'ascii' codec can't decode byte 0x8f in position 1: ordinal not in range(128) Строка должна быть unicode для того, чтобы она была для меня использована, можно ли это сделать? Использование python 2.7, если это помогает …

Заменить новые строки в строке Unicode

Я пытаюсь заменить символы новой строки в строке юникода и, кажется, не хватает некоторых магических кодов. В моем конкретном примере я работаю над AppEngine и пытаюсь поместить заголовки с HTML-страниц в db.StringProperty() в моей модели. Поэтому я делаю что-то вроде: link.title = unicode(page_title,"utf-8").replace('\n','').replace('\r','') и я получаю: Property title is not multi-line Существуют ли другие коды, […]

Python - лучший язык программирования в мире.