Tag: unicode

Нормализация юникода на Python: правильно ли перевести u '\ xb4' на u '\ u0301'

посмотрите следующий фрагмент: >>> import unicodedata >>> from unicodedata import normalize, name >>> normalize('NFKD', u'\xb4') u' \u0301' >>> normalize('NFKD', u'a\xb4a') u'a \u0301a' >>> normalize('NFKC', u'a\xb4a') u'a \u0301a' >>> name(u'\xb4'), name(u'\u0301') ('ACUTE ACCENT', 'COMBINING ACUTE ACCENT') Я пытаюсь понять, правильно ли поведение для перевода u'\xb4' на u' \u0301' . Почему он сочетает в себе острый акцент […]

Проблема Unicode с SQLAlchemy

Я знаю, что у меня проблема с преобразованием из Юникода, но я не уверен, где это происходит. Я извлекаю данные о недавней поездке Eruopean из каталога файлов HTML. Некоторые имена местоположений имеют символы, отличные от ASCII (например, é, ô, ü). Я получаю данные из строкового представления файла с помощью regex. Если я напечатаю местоположения по […]

как разбить строку unicode на список

У меня есть следующий код: stru = "۰۱۲۳۴۵۶۷۸۹" strlist = stru.decode("utf-8").split() print strlist[0] мой результат: ۰۱۲۳۴۵۶۷۸۹ Но когда я использую: print strlist[1] Я получаю следующую traceback : IndexError: list index out of range Мой вопрос : как я могу split мою string ? Конечно, помните, что я получаю свою string от function , считая ее […]

String В python с моим юникодом?

Python 3.2 (r32:88445, Feb 20 2011, 21:29:02) [MSC v.1500 32 bit (Intel)] on win32 Type "copyright", "credits" or "license()" for more information. >>> str_version = 'នយោបាយ' >>> type(str_version) <class 'str'> >>> print (str_version) នយោបាយ >>> unicode_version = 'នយោបាយ'.decode('utf-8') Traceback (most recent call last): File "<pyshell#3>", line 1, in <module> unicode_version = 'នយោបាយ'.decode('utf-8') AttributeError: 'str' object […]

json.loads () возвращает объект unicode вместо словаря

Я читаю json из файла на удаленном сервере с использованием тэга: from StringIO import StringIO output = StringIO() get(file_name, output) output = output.getvalue() Значение output теперь: '"{\\n \\"status\\": \\"failed\\", \\n \\"reason\\": \\"Record already exists.\\"\\n}"' Когда я пытаюсь проанализировать эту строку в словаре с помощью json.loads(output) он возвращает объект unicode u'{\n "status": "failed", \n "reason": "Record […]

Центральный способ фильтрации недопустимых символов unicode в lxml?

Общеизвестно, что некоторые диапазоны символов не разрешены в документах XML. Я знаю решения для фильтрации этих символов (например, [1] , [2] ). Следуя принципу «Не повторяй себя», я бы предпочел реализовать одно из этих решений в одном центральном пункте – прямо сейчас я должен дезинфицировать любой потенциально опасный текст, прежде чем он будет lxml в […]

Разница Python между print obj и print obj .__ str __ ()

Мне было дано понять, что вызов print obj вызовет obj.__str__() который, в свою очередь, вернет строку для печати на консоль. Теперь я столкнулся с проблемой с Unicode, где я не мог напечатать никаких символов, отличных от ascii. Я получил типичный материал «ascii вне диапазона». При экспериментировании работали: print obj.__str__() print obj.__repr__() Поскольку обе функции выполняют […]

Проблемы с Unicode при использовании io.StringIO для издевательства файла

Я использую объект io.StringIO для издевательства файла в модульном тесте для класса. Проблема в том, что этот класс, по-видимому, ожидает, что все строки будут unicode по умолчанию, но встроенная строка не возвращает строки Unicode: >>> buffer = io.StringIO() >>> buffer.write(str((1, 2))) TypeError: can't write str to text stream Но >>> buffer.write(str((1, 2)) + u"") 6 […]

Существует ли определенный диапазон кодов Unicode, которые можно проверить для emojis?

Действительно ли emojis занимают четко определенный диапазон юникодов? И есть ли окончательный способ проверить, является ли точка кода emoji в python 2.7? Я не могу найти никакой информации об этом. Несколько источников указали на диапазон: \U0001f600-\U0001f650 Но, например, 🤘 имеет кодовую точку \U0001f918 которая находится вне этого диапазона. Благодарю.

Как декодировать encodeURIComponent в GAE (python)?

У меня есть строка юникода, которая была закодирована на стороне клиента, используя JS encodeURIComponent. Если я использую следующее в Python локально, я получаю ожидаемый результат: >>> urllib.unquote("Foo%E2%84%A2%20Bar").decode("utf-8") >>> u'Foo\u2122 Bar' Но когда я запускаю это в Google App Engine, я получаю: Traceback (most recent call last): File "/base/python_runtime/python_lib/versions/1/google/appengine/ext/webapp/_webapp25.py", line 703, in __call__ handler.post(*groups) File "/base/data/home/apps/s~kaon-log/2.357769827131038147/main.py", […]

 
Interesting Posts for Van-Lav
Python - лучший язык программирования в мире.