Tag: unicode

Кодировка для многоязычных файлов .py

Я пишу файл .py, который содержит строки из нескольких наборов символов, включая английский, испанский и русский. Например, у меня есть что-то вроде: string_en = "The quick brown fox jumped over the lazy dog." string_es = "El veloz murciélago hindú comía feliz cardillo y kiwi." string_ru = "В чащах юга жил бы цитрус? Да, но фальшивый […]

Кодировка Python для pipe.communicate

Я pipe.communicate из модуля subprocess Python из Python 2.6. Я получаю следующую ошибку из этого кода: from subprocess import Popen pipe = Popen(cwd) pipe.communicate( data ) Для произвольного cwd и где data , содержащие unicode (в частности, 0xE9): Exec. exception: 'ascii' codec can't encode character u'\xe9' in position 507: ordinal not in range(128) Traceback (most […]

В Python, как мне преобразовать список ints и строк в Unicode?

x = ['Some strings.', 1, 2, 3, 'More strings!', 'Fanc\xc3\xbf string!'] y = [i.decode('UTF-8') for i in x] Каков наилучший способ преобразования строк в x в Unicode? Выполнение сжатия списка вызывает ошибку атрибута ( AttributeError: 'int' object has no attribute 'decode' ), потому что int не имеет метода декодирования. Я мог бы использовать цикл for […]

В Python, как перечислять все символы, соответствующие расширенному регулярному выражению POSIX “?

В Python, как перечислить все символы, сопоставленные расширенным regex POSIX [:space:] ? Существует ли программный способ извлечения кодов Unicode, охватываемых [:space:] ?

Преобразовать символы ASCII в латинские буквы Unicode FULLWIDTH в Python?

Можете ли вы легко преобразовать символы ASCII и их азиатские полноразмерные символы Unicode? Подобно: 0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~ в 0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!゛#$%&()*+、ー。/:;〈==〉?@[\\]^_'{|}~

Неверный перевод текста Devanagari в PyGame

У нас есть небольшое веб-приложение, которое мы хотим преобразовать во что-то родное. Сейчас у него много движущихся частей (бэкэнд, браузер и т. Д.), И мы хотели бы преобразовать его в одно жесткое приложение. Мы решили использовать PyGame для этого, и до сих пор это было прекрасно, за исключением проблемы с отображением шрифтов. Строка, которую я […]

Преобразование нулевых байтов в строку UTF-8

Я распаковываю несколько структур, которые содержат поля типа 's' из C. Поля содержат нулевые заполненные строки UTF-8, обработанные strncpy в коде C (обратите внимание на рудиментарное поведение этой функции). Если я декодирую байты, я получаю строку юникода с большим количеством символов NUL в конце. >>> b'hiya\0\0\0'.decode('utf8') 'hiya\x00\x00\x00' У меня создалось впечатление, что конечные нулевые байты […]

Согласование границ слова Unicode в Python

Чтобы соответствовать границам слов Юникода [как определено в Приложении № 29 ] в Python, я использовал пакет regex с флагами regex.WORD | regex.V1 regex.WORD | regex.V1 ( regex.UNICODE должен быть по умолчанию, поскольку шаблон является строкой Unicode) следующим образом: >>> s="here are some words" >>> regex.findall(r'\w(?:\B\S)*', s, flags = regex.V1 | regex.WORD) ['here', 'are', 'some', […]

Strange `UnicodeEncodeError`, используя` os.path.exists`

В веб-приложении (с использованием Flask) появляется следующая ошибка: Unable to retrieve the thumbnail for u'/var/data/uploads/2012/03/22/12 Gerd\xb4s Banjo Trio 1024.jpg' Traceback (most recent call last): File "/var/www/beta/env/lib/python2.7/site-packages/dblib-1.0dev3-py2.7.egg/dblib/orm/file.py", line 169, in get_thumbnail if not exists(filename): File "/usr/lib/python2.7/genericpath.py", line 18, in exists os.stat(path) UnicodeEncodeError: 'ascii' codec can't encode character u'\xb4' in position 52: ordinal not in range(128) Обратите […]

Как заставить строки Python 2.x Unicode не печатать как u'string '?

В настоящее время я тестирую веб-сервис, который возвращает большое количество данных JSON в виде словарей. Ключи и значения для этих словарей – все строки Юникода, и, таким образом, они печатаются как {u'key1':u'value', u'key2':u'value2'} при печати на экране в интерактивном интерпретаторе. Теперь представьте, что это трехуровневый, 40-элементный словарь. Все эти символы персонажа загромождают дисплей, что затрудняет […]

Python - лучший язык программирования в мире.