Tag: unicode

urllib.quote () бросает KeyError

Чтобы кодировать URI, я использовал urllib.quote("schönefeld") но когда в строке есть несколько символов, отличных от ascii, это KeyError: u'\xe9' Code: return ''.join(map(quoter, s)) Мои входные строки: köln, brønshøj, schönefeld и т. Д. Когда я пробовал просто печатать заявления в окнах (с использованием python2.7, pyscripter IDE). Но в Linux это вызывает исключение (я думаю, платформа не […]

Что такое строка в Юникоде?

Что такое строка в Юникоде? В чем разница между регулярной строкой и строкой unicode? Что такое utf-8? Я пытаюсь изучить Python прямо сейчас, и я продолжаю слышать это модное слово. Что делает код ниже? Строки i18n (Unicode) > ustring = u'A unicode \u018e string \xf1' > ustring u'A unicode \u018e string \xf1' ## (ustring from […]

Приблизительно преобразование строки unicode в строку ascii в python

не знаю, это тривиально или нет, но мне нужно будет преобразовать строку unicode в строку ascii, и я бы не хотел, чтобы все эти символы побега были вокруг. Я имею в виду, возможно ли иметь «приблизительное» преобразование в какой-то довольно похожий символ ascii? Например: Гэвин О'Коннор превращается в Gavin O \ x92Connor, но мне бы […]

UnicodeEncodeError: кодек ascii не может кодировать символ

Я прочитал HOWTO в Unicode из официальных документов и полную, очень подробную статью . Тем не менее, я не понимаю, почему это порождает мне эту ошибку. Вот что я пытаюсь: я открываю XML-файл, содержащий символы из диапазона ASCII (но внутри допустимого диапазона XML). Я делаю это с помощью cfg = codecs.open(filename, encoding='utf-8, mode='r') который работает […]

Нормализация текста Unicode для имен файлов и т. Д. В Python

Существуют ли автономные решения для нормализации международного текста юникода для надежных идентификаторов и имен файлов в Python? Например, My International Text: åäö to my-international-text-aao plone.i18n действительно хорошо работает, но, к сожалению, это зависит от zope.publisher и zope.publisher и некоторых других пакетов, что делает его хрупкой зависимостью. Некоторые операции, которые применяются plone.i18n

Лучший способ декодировать неизвестную кодировку Unicoding в Python 2.5

У меня есть все правильно? Во всяком случае, я разбираю много html, но я не всегда знаю, какой кодировкой он должен быть (удивительное число об этом говорит). Код ниже легко показывает, что я делал до сих пор, но я уверен, что есть лучший способ. Ваши предложения будут высоко оценены. import logging import codecs from utils.error […]

Замена Python StringIO, которая работает с байтами вместо строк?

Есть ли замена на класс python StringIO , который будет работать с bytes вместо строк? Это может быть не очевидно, но если вы использовали StringIO для обработки двоичных данных, вам не повезло с Python 2.7 или новее.

Python обнаруживает строковое байтовое кодирование

У меня около 1000 имен файлов, прочитанных os.listdir (), некоторые из них закодированы «utf-8», а некоторые – «cp1252». Я хочу расшифровать все их в unicode для дальнейшей обработки в моем скрипте. Есть ли способ заставить исходную кодировку правильно декодировать в unicode? Пример: for item in os.listdir(rootPath): #Convert to Unicode if isinstance(item, str): item = item.decode('cp1252') […]

Преобразование байтовой строки в строку юникода

У меня есть код такой, что: a = "\u0432" b = u"\u0432" c = b"\u0432" d = c.decode('utf8') print(type(a), a) print(type(b), b) print(type(c), c) print(type(d), d) И вывод: <class 'str'> в <class 'str'> в <class 'bytes'> b'\\u0432' <class 'str'> \u0432 Почему в последнем случае я вижу символ, а не символ? Как я могу преобразовать строку […]

Есть ли список символов, похожих на английские буквы?

У меня есть трещина в фильтрации профанации для веб-форума, написанного на Python. Как часть этого, я пытаюсь написать функцию, которая берет слово, и возвращает все возможные макет написания этого слова, которые используют визуально похожие символы вместо конкретных букв (например, s † å © køv € rƒ | øw). Я ожидаю, что мне придется расширять этот […]

Python - лучший язык программирования в мире.