Tag: unicode

Python 2.X: Почему я не могу правильно обрабатывать Unicode?

Я экспериментировал некоторое время с Python 2.X и unicode. Но я дошел до точки, когда это не имеет смысла. Первая проблема: Некоторый код будет ясно объяснять, что я имею в виду. Здесь переменная txt предназначена для имитации функции перевода pyqt4. Что возвращает QString. # -*- coding: utf-8 -*- from PyQt4 import QtCore txt = QtCore.QString(u'può […]

Нет Unicode в `__all__` для пакета` __init__`?

Не допускаются ли литералы Unicode в __all__ в Python 2.7.5? У меня есть файл __init__.py с from __future__ import unicode_literals вверху вместе с кодировкой utf-8. (В нем также есть некоторые строки юникода, следовательно, будущий импорт.) Чтобы убедиться, что только некоторые из модулей видны при импорте с использованием from mypackage import * , я добавил свой […]

Ошибка Unicode в django admin

Я получаю эту ошибку при попытке просмотреть объекты с именами, не находящимися на английском языке, в консоли администратора django. UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128) Заголовок моего .py файла -*- coding: utf-8 -*- Это код class Owner(models.Model): id = models.AutoField(primary_key=True) name = models.CharField(max_length=50) def __str__(self): return self.name Я […]

Преобразование строки из xmlcharrefreplace обратно в utf-8

У меня есть следующая часть кода: In [8]: st = u"опа" In [11]: st.encode("ascii", "xmlcharrefreplace") Out[11]: 'опа' In [14]: st1 = st.encode("ascii", "xmlcharrefreplace") In [15]: st1.decode("ascii", "xmlcharrefreplace") Out[15]: u'опа' In [16]: st1.decode("utf-8", "xmlcharrefreplace") Out[16]: u'опа' Вы хоть представляете, как преобразовать st1 обратно в u"опа" ?

Разделите модификаторы символов Unicode

Каков самый простой способ удалить модификаторы символов из строки Unicode в Python? Например: A͋͠r͍̞̫̜͌ͦ̈͐t̼̭͞hu̡̙̞̘̙̬͖͓rͬͣ̐ͮͥͨ͏̣ должен стать Артуром Я пробовал документы, но я не мог найти ничего, что бы это делало.

Конвертировать или вырезать «незаконные» символы Юникода

У меня есть база данных в MSSQL, которую я переношу в SQLite / Django. Я использую pymssql для подключения к базе данных и сохранения текстового поля в локальной базе данных SQLite. Однако для некоторых персонажей он взрывается. Я получаю жалобы следующим образом: UnicodeDecodeError: 'ascii' codec can't decode byte 0x97 in position 1916: ordinal not in […]

Python – Чтение символов Unoode из Emoji

У меня есть программа Python 2.7, которая читает текстовые сообщения iOS из базы данных SQLite. Текстовые сообщения являются строками unicode. В следующем текстовом сообщении: u'that\u2019s \U0001f63b' Апостроф представлен \u2019 , но \u2019 представлен \U0001f63b . Я искал код для рассматриваемого emoji, и это \uf63b . Я не уверен, откуда приходит 0001 . Я мало знаю […]

Как поместить и выровнять строки юникода со специальными символами в python?

Python упрощает наложение и выравнивание строк ascii, например: >>> print "%20s and stuff" % ("test") test and stuff >>> print "{:>20} and stuff".format("test") test and stuff Но как я могу правильно разместить и выровнять строки юникода, содержащие специальные символы? Я пробовал несколько методов, но никто из них, похоже, не работает: #!/usr/bin/env python # -*- coding: […]

Я не понимаю кодировку и декодирование в Python (2.7.3)

Я пытался понять сам encode и decode в Python, но для меня ничего не ясно. str.encode([encoding,[errors]]) str.decode([encoding,[errors]]) Во-первых, я не понимаю необходимость «кодирования» в этих двух функциях. Каков результат каждой функции, ее кодировка? Каково использование параметра «кодирования» в каждой функции? Я не совсем понимаю определение «строка байтов». У меня есть важный вопрос, есть ли способ […]

разделение строки юникода на слова

Я пытаюсь разбить строку Unicode на слова (упрощенные), например: print re.findall(r'(?u)\w+', "раз два три") Я ожидаю увидеть следующее: ['раз','два','три'] Но я действительно получаю: ['\xd1', '\xd0', '\xd0', '\xd0', '\xd0\xb2\xd0', '\xd1', '\xd1', '\xd0'] Что я делаю не так? Редактировать: Если я использую u перед строкой: print re.findall(r'(?u)\w+', u"раз два три") Я получил: [u'\u0440\u0430\u0437', u'\u0434\u0432\u0430', u'\u0442\u0440\u0438'] Изменить 2: […]

 
Interesting Posts for Van-Lav
Python - лучший язык программирования в мире.