Tag: unicode

специфичная для платформы семантика Unicode в Python 2.7

Ubuntu 11.10: $ python Python 2.7.2+ (default, Oct 4 2011, 20:03:08) [GCC 4.6.1] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> x = u'\U0001f44d' >>> len(x) 1 >>> ord(x[0]) 128077 Windows 7: Python 2.7.2 (default, Jun 12 2011, 15:08:59) [MSC v.1500 32 bit (Intel)] on win32 Type "help", "copyright", "credits" or […]

Можно ли создать шаблон регулярного выражения Python для соответствия и замены символов Unicode, отличных от ASCII?

В следующем регулярном выражении я хотел бы, чтобы каждый символ в строке заменен на «X», но он не работает. В Python 2.7: >>> import re >>> re.sub(u"[a-zA-Z]","X","dfäg") 'XX\xc3\xa4X' или >>> re.sub("[a-zA-Z]","X","dfäg",re.UNICODE) u'XX\xe4X' В Python 3.4: >>> re.sub("[a-zA-Z]","X","dfäg") 'XXäX' Возможно ли каким-либо образом «настроить» шаблон [a-zA-Z] для соответствия «ä», «ü» и т. Д.? Если это невозможно […]

Почему json.dumps сбрасывает символы не-ascii с помощью "\ uxxxx"

В Python 2 функция json.dumps() гарантирует, что все символы без ascii будут экранированы как \uxxxx . Python 2 Json Но разве это не сбивает с толку, потому что \uxxxx является символом юникода и должен использоваться внутри строки юникода. Вывод json.dumps() – это str , которая является байтовой строкой в ​​Python 2. И, таким образом, не […]

Hack Jinja2 для кодирования с `utf-8` вместо` ascii`?

Jinja2 преобразует все переменные шаблона в юникод перед обработкой. Может ли кто-нибудь найти место, где это происходит? Проблема заключается в том, что он предполагает, что строки являются ascii , но мы (в Roundup) используем utf-8 внутренне, и наш ORM (HyperDB) автоматически восстанавливает свойства объекта utf-8 и преобразовывает их все в unicode во всех представлениях перед […]

Выровнять текст юникода в окне терминала, используя шрифт моноширин по умолчанию

Я извлекаю данные из Интернета и хочу выровнять его в таблице в окне терминала. Я могу выровнять текст в большинстве случаев, но когда текст содержит определенные символы или чужие символы, все становится беспорядочным. Как я могу обрабатывать эти символы? Вот пример проблемы с третьей строкой вывода: >>> items = "Apple tree", "Banana plant", "Orange 으르", […]

Самый быстрый способ преобразования ключей и значений dict из str в Unicode?

Я работаю с счетчиком from collections import Counter и я хочу распечатать его значения, используя matplotlib.pylot . Когда я пытаюсь это сделать, используя: plt.bar(range(len(cnt)), cnt.values(), align='center') plt.xticks(range(len(cnt)), cnt.keys()) plt.show() Я получаю следующую ошибку: ValueError: текст отображения matplotlib должен иметь все кодовые точки <128 или использовать строки Unicode Вот почему я пытаюсь преобразовать ключи счетчика Counter […]

Получение международных символов с веб-страницы?

Я хочу очистить некоторую информацию с футбольной (футбольной) веб-страницы, используя простые python regexp. Проблема в том, что такие игроки, как первый парень, ÄÄRITALO, выходят как RITALO! То есть, html использует экранированную разметку для специальных символов, например & # 196; Есть ли простой способ чтения html в правильную строку python? Если бы это был XML / […]

Python, UnicodeDecodeError

Я получаю эту ошибку: UnicodeDecodeError: 'ascii' codec can't decode byte 0xe0 in position 4: ordinal not in range(128) Я попытался установить множество разных кодеков (в заголовке, например, # -*- coding: utf8 -*- ), или даже с помощью u "string", но он по-прежнему появляется. Как это исправить? Изменить: я не знаю фактического персонажа, который вызывает это, […]

Python: конвертировать Unicode в ASCII без ошибок для файла CSV

Я читал все вопросы относительно преобразования из Unicode в CSV в Python здесь, в StackOverflow, и я все еще теряюсь. Каждый раз, когда я получаю «кодек UnicodeEncodeError: 'ascii', он не может кодировать символ u '\ xd1' в позиции 12: порядковый номер не в диапазоне (128)" buffer=cStringIO.StringIO() writer=csv.writer(buffer, csv.excel) cr.execute(query, query_param) while (1): row = cr.fetchone() […]

Python sys.maxint, sys.maxunicode в Linux и windows

В 64-разрядном Debian Linux 6: Python 2.6.6 (r266:84292, Dec 26 2010, 22:31:48) [GCC 4.4.5] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> import sys >>> sys.maxint 9223372036854775807 >>> sys.maxunicode 1114111 В 64-битной Windows 7: Python 2.7.1 (r271:86832, Nov 27 2010, 17:19:03) [MSC v.1500 64 bit (AMD64)] on win32 Type "help", "copyright", […]

Python - лучший язык программирования в мире.