Tag: unicode

'str' не поддерживает буферный интерфейс Python3 из Python2

Привет, эти две функции в Py2 отлично работают, но он не работает на Py3 def encoding(text, codes): binary = '' f = open('bytes.bin', 'wb') for c in text: binary += codes[c] f.write('%s' % binary) print('Text in binary:', binary) f.close() return len(binary) def decoding(codes, large): f = file('bytes.bin', 'rb') bits = f.read(large) tmp = '' decode_text […]

Двойной декодирование юникода в python

Я работаю против приложения, которое, похоже, хочет вернуться, что я считаю двойным строками, закодированными в UTF-8. Я отправляю строку u'XüYß' закодированную с использованием UTF-8, становясь таким образом X\u00fcY\u00df (равным X\xc3\xbcY\xc3\x9f ). Сервер должен просто повторить то, что я его отправил, но возвращает следующее: X\xc3\x83\xc2\xbcY\xc3\x83\xc2\x9f (должен быть X\xc3\xbcY\xc3\x9f ). Если я декодирую его с помощью str.decode('utf-8') […]

UnicodeEncodeError: кодек «gbk» не может кодировать символ: незаконная многобайтовая последовательность

Я хочу получить html-контент из URL-адреса и проанализировать содержимое html с регулярным выражением. Но содержание html имеет несколько многобайтовых символов. Поэтому я встретил ошибку, описанную в заголовке. Может ли кто-нибудь сказать мне, как решить эту проблему?

python: работа с немецким умляутом

months = ["Januar", "Februar", "März", "April", "Mai", "Juni", "Juli", "August", "September", "Oktober", "November", "Dezember"] print months[2].decode("utf-8") Печать месяца [2] завершается неудачей UnicodeDecodeError: 'utf8' codec can't decode bytes in position 1-2: invalid data помогите избавиться от этого!

Почему это преобразование в utf8 не работает?

У меня есть команда subprocess, которая выводит некоторые символы, такие как '\ xf1'. Я пытаюсь расшифровать его как utf8, но я получаю сообщение об ошибке. s = '\xf1' s.decode('utf-8') Вышеуказанные броски: UnicodeDecodeError: 'utf8' codec can't decode byte 0xf1 in position 0: unexpected end of data Он работает, когда я использую «latin-1», но не должен работать […]

Как перебирать символы Unicode в Python 3?

Мне нужно пройти через один символ Python за один раз, но простой цикл «for» дает мне кодовые единицы UTF-16: str = "abc\u20ac\U00010302\U0010fffd" for ch in str: code = ord(ch) print("U+{:04X}".format(code)) Это печатает: U+0061 U+0062 U+0063 U+20AC U+D800 U+DF02 U+DBFF U+DFFD когда я хотел: U+0061 U+0062 U+0063 U+20AC U+10302 U+10FFFD Есть ли способ заставить Python дать […]

python-re: Как я могу сопоставить альфа-символ

Как я могу сопоставить альфа-символ с регулярным выражением. Мне нужен символ, который находится в \w но не находится в \d . Я хочу, чтобы он совместим с unicode, поэтому я не могу использовать [a-zA-Z] .

Как сделать Python split () на языках (например, китайском), которые не используют пробелы в качестве разделителя слов?

Я хочу разбить предложение на список слов. Для английского и европейского языков это просто, просто используйте split () >>> "This is a sentence.".split() ['This', 'is', 'a', 'sentence.'] Но мне также нужно иметь дело с предложениями на таких языках, как китайский, которые не используют пробелы в качестве разделителя слов. >>> u"这是一个句子".split() [u'\u8fd9\u662f\u4e00\u4e2a\u53e5\u5b50'] Очевидно, что это не […]

Python CSV DictReader с данными UTF-8

AFAIK, модуль csv Python (v2.6) не может обрабатывать данные Unicode по умолчанию, правильно? В документах Python есть пример того, как читать из кодированного файла UTF-8. Но этот пример возвращает строки CSV в виде списка. Я хотел бы получить доступ к столбцам строк по имени, как это делается csv.DictReader но с входным файлом CSV с кодировкой […]

Преобразование кодировки unicode в UTF8 hex в python

Я хочу преобразовать несколько кодовых точек unicode, считанных из файла, в их кодировку UTF8. например, я хочу преобразовать строку 'FD9B' в строку 'EFB69B' . Я могу сделать это вручную, используя строковые литералы, такие как: u'\uFD9B'.encode('utf-8') но я не могу решить, как это сделать программно.

Python - лучший язык программирования в мире.