Tag: unicode

Python возвращает длину 2 для одной символьной строки Unicode

В Python 2.7: In [2]: utf8_str = '\xf0\x9f\x91\x8d' In [3]: print(utf8_str) 👍 In [4]: unicode_str = utf8_str.decode('utf-8') In [5]: print(unicode_str) 👍 In [6]: unicode_str Out[6]: u'\U0001f44d' In [7]: len(unicode_str) Out[7]: 2 Поскольку unicode_str содержит только одну кодовую точку юникода (0x0001f44d), почему len(unicode_str) возвращает 2 вместо 1?

Чтение элементов юникода в массив numpy

Рассмотрим текстовый файл с именем «new.txt», содержащий следующие элементы: μm ∂r ∆λ В Python 2.7 я могу прочитать файл, набрав: >>> import codecs >>> f = codecs.open('new.txt', encoding='utf-8') >>> lines = [line.strip() for line in f2.readlines()] >>> lines [u'\u03bcm', u'\u2202r', u'\u2206\u03bb'] >>> print lines[0] μm Все идет нормально. Я могу легко преобразовать этот список в […]

Какой самый быстрый способ снять и заменить документ с высокими символами Юникода с помощью Python?

Я хочу заменить из большого документа все высокие символы юникода, такие как акцентированные Es, левые и правые кавычки и т. Д., С «нормальными» аналогами в низком диапазоне, такими как регулярные «E» и прямые кавычки. Мне нужно довольно часто выполнять это на очень большом документе. Я вижу пример этого в том, что, на мой взгляд, может […]

'str' не поддерживает буферный интерфейс Python3 из Python2

Привет, эти две функции в Py2 отлично работают, но он не работает на Py3 def encoding(text, codes): binary = '' f = open('bytes.bin', 'wb') for c in text: binary += codes[c] f.write('%s' % binary) print('Text in binary:', binary) f.close() return len(binary) def decoding(codes, large): f = file('bytes.bin', 'rb') bits = f.read(large) tmp = '' decode_text […]

Двойной декодирование юникода в python

Я работаю против приложения, которое, похоже, хочет вернуться, что я считаю двойным строками, закодированными в UTF-8. Я отправляю строку u'XüYß' закодированную с использованием UTF-8, становясь таким образом X\u00fcY\u00df (равным X\xc3\xbcY\xc3\x9f ). Сервер должен просто повторить то, что я его отправил, но возвращает следующее: X\xc3\x83\xc2\xbcY\xc3\x83\xc2\x9f (должен быть X\xc3\xbcY\xc3\x9f ). Если я декодирую его с помощью str.decode('utf-8') […]

UnicodeEncodeError: кодек «gbk» не может кодировать символ: незаконная многобайтовая последовательность

Я хочу получить html-контент из URL-адреса и проанализировать содержимое html с регулярным выражением. Но содержание html имеет несколько многобайтовых символов. Поэтому я встретил ошибку, описанную в заголовке. Может ли кто-нибудь сказать мне, как решить эту проблему?

python: работа с немецким умляутом

months = ["Januar", "Februar", "März", "April", "Mai", "Juni", "Juli", "August", "September", "Oktober", "November", "Dezember"] print months[2].decode("utf-8") Печать месяца [2] завершается неудачей UnicodeDecodeError: 'utf8' codec can't decode bytes in position 1-2: invalid data помогите избавиться от этого!

Почему это преобразование в utf8 не работает?

У меня есть команда subprocess, которая выводит некоторые символы, такие как '\ xf1'. Я пытаюсь расшифровать его как utf8, но я получаю сообщение об ошибке. s = '\xf1' s.decode('utf-8') Вышеуказанные броски: UnicodeDecodeError: 'utf8' codec can't decode byte 0xf1 in position 0: unexpected end of data Он работает, когда я использую «latin-1», но не должен работать […]

Как перебирать символы Unicode в Python 3?

Мне нужно пройти через один символ Python за один раз, но простой цикл «for» дает мне кодовые единицы UTF-16: str = "abc\u20ac\U00010302\U0010fffd" for ch in str: code = ord(ch) print("U+{:04X}".format(code)) Это печатает: U+0061 U+0062 U+0063 U+20AC U+D800 U+DF02 U+DBFF U+DFFD когда я хотел: U+0061 U+0062 U+0063 U+20AC U+10302 U+10FFFD Есть ли способ заставить Python дать […]

python-re: Как я могу сопоставить альфа-символ

Как я могу сопоставить альфа-символ с регулярным выражением. Мне нужен символ, который находится в \w но не находится в \d . Я хочу, чтобы он совместим с unicode, поэтому я не могу использовать [a-zA-Z] .

Interesting Posts

Как реализовать приложение Flask Dispatching by Path с WSGI?

Код Python для Bluetooth вызывает ошибку после того, как мне пришлось перезагрузить адаптер

Правильный способ определения параметра последовательности?

отрицательное выражение lookahead не работает в python

Django: Почему некоторые поля моделей сталкиваются друг с другом?

Можно ли генерировать и возвращать ZIP-файл с помощью App Engine?

Как реализовать предотвращение хотлинков в Google App Engine

Python читает текстовый файл со второй строки до пятнадцатой

Использование Pre_delete Signal в django

Как сделать несколько аргументов для функции map, где один остается в python?

Учитывая список элементов в лексикографическом порядке (т.е. ), найдите n-ю перестановку – Среднее время для решения?

Объект XlsxWriter сохраняет как HTTP-ответ для создания загрузки в Django

Как установить распределение weibull на данные с помощью python?

pylint 1.4 сообщает E1101 (без членов) на всех расширениях C

Сортировка 5 элементов с минимальным сравнением элементов

Python - лучший язык программирования в мире.