Tag: unicode

Python Undo Unicode Question

Предположим, у меня есть следующие две переменные: bob1 = u'bob\xf0\xa4\xad\xa2' а также bob2 = 'bob\xf0\xa4\xad\xa2' Как я могу получить значение bob1 как значение bob2. AKA, как мне развернуть форматирование Unicode, но сохранить значение escapped hex? Если я это сделаю: bob1.encode('utf8') 'bob\xc3\xb0\xc2\xa4\xc2\xad\xc2\xa2' Это не правильно… Помогите!

JSON добавлен в базу данных как Unicode

Я пытаюсь сохранить запрос JSON как строки в базе данных, но имею некоторые проблемы: по какой-то причине мои данные сохраняются в базе данных как строка Unicode. Что я имею в виду, так это то, что в базе данных сохраняются такие строки: [{u'content': u'Treehouse', u'name': u'opportunity_name'}, {u'content': u'Robert', u'name': u'user_firstname'}, {u'content': u'Warren', u'name': u'client_firstname'}, {u'content': u'Buffett', […]

Python 2.7.2: plistlib с itunes xml

Я читаю созданный itunes xml плейлист с plistib. Xml имеет заголовок utf8. Когда я читаю xml с plistib, я получаю как unicode (например, «Name»: u'Don \ u2019t You Remember »), так и строки байтов (например,« Name »:« Where Eagles Dare »). Стандартный совет – как можно скорее декодировать то, что вы читаете с правильным кодированием, […]

Python, читающий unicode папку и имена файлов

Я новичок в Python. Я пытаюсь ввести один путь и использовать os.walk() для поиска всех файлов и возврата имен файлов. Я также хочу использовать os.path.getsize() для получения размера файла и, наконец, записать их в файл csv. Однако, если имя файла отсутствует на английском языке, но на китайском, немецком, французском и т. Д. Python не может […]

В python, извлечение неанглийских слов

У меня есть текстовый файл с английскими символами и другими языковыми символами. И используя код ниже, я хочу извлечь несколько слов из этого файла, который не является английским, особенно корейским (Unicode варьируется от AC00 до D7AF в UTF-8) Есть ли способ сделать это простым в этом коде? Нужно ли мне что-то делать? …. text = […]

Использование ввода utf-8 для модуля cmd Python

В процессе создания небольшого приложения для ноутбуков CLI я решил пойти с библиотекой python cmd (см. Также cmd на PyMOTW). Моя оболочка UTF-8. → echo $LANG fr_FR.utf-8 → echo $LC_ALL fr_FR.utf-8 И он работает достаточно хорошо. → echo "東京"東京 Запуск кода моего маленького приложения и попытки использования utf-8: → python nb.py log> foobar 2013-01-15 foobar […]

Почему Python 2.x генерирует исключение с форматированием строки + unicode?

У меня есть следующий код. Последняя строка вызывает ошибку. Почему это? class Foo(object): def __unicode__(self): return u'\u6797\u89ba\u6c11\u8b1d\u51b0\u5fc3\u6545\u5c45' def __str__(self): return self.__unicode__().encode('utf-8') print "this works %s" % (u'asdf') print "this works %s" % (Foo(),) print "this works %s %s" % (Foo(), 'asdf') print print "this also works {0} {1}".format(Foo(), u'asdf') print print "this should break %s […]

Python "\ x00" заполняется / utf-32 строка из cStringIO

Через cStringIO другой системы я написал некоторый unicode через: u'content-length'.encode('utf-8') и, читая это, используя unicode( stringio_fd.read(),'utf-8') , я получаю: u'c \ x00 \ x00 \ x00o \ x00 \ x00 \ x00n \ x00 \ x00 \ x00t \ x00 \ x00 \ x00e \ x00 \ x00 \ x00n \ x00 \ x00 \ […]

Как распознать специальный символ eol, когда я его вижу, используя Python?

Я очищаю набор исходных файлов PDF, используя Python. Получив их текст, у меня возникли проблемы с окончанием линии. Я не мог понять, что такое разделитель строк. Беда в том, что я до сих пор не знаю. Это не '\n' , или, я не думаю, '\r\n' . Однако мне удалось выделить один из этих специальных символов. […]

Кодировка символов Python Европейские акценты

Я знаю, что это не необычная проблема и что на этот вопрос уже задано несколько вопросов SO ( 1 , 2 , 3 ), но даже после выполнения рекомендаций там я все еще вижу эту ошибку (для приведенного ниже кода): uri_name = u"%s_%s" % (name[1].encode('utf-8').strip(), name[0].encode('utf-8').strip()) UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position […]

Python - лучший язык программирования в мире.