Tag: unicode

Кодировка Юникода Python

Я использую argparse для чтения в аргументах для моего кода на Python. Одним из этих входов является заголовок файла [ title ], который может содержать символы Unicode. Я использовал 22少女時代22 в качестве тестовой строки. Мне нужно записать значение входного title в файл, но когда я пытаюсь преобразовать строку в UTF-8 она всегда выдает ошибку: UnicodeDecodeError: […]

Как преобразовать символы xxY в UTF-8 в Python?

У меня есть текст, который содержит символы, такие как «\ xaf», «\ xbe», которые, как я понимаю из этого вопроса , являются символами ASCII. Я хочу преобразовать их в Python в их эквиваленты UTF-8. Обычный string.encode("utf-8") выдает UnicodeDecodeError . Есть ли лучший способ, например, с стандартной библиотекой codecs ? Пример 200 символов здесь .

UnicodeEncodeError при использовании функции компиляции

Используя python 3.2 в Windows 7, я получаю следующее в IDLE: >>compile('pass', r'c:\temp\工具\module1.py', 'exec') UnicodeEncodeError: 'mbcs' codec can't encode characters in position 0–1: invalid character Может ли кто-нибудь объяснить, почему оператор компиляции пытается преобразовать имя файла в unicode с помощью mbcs? Я знаю, что sys.getfilesystemencoding возвращает «mbcs» в Windows, но я думал, что это не […]

Как получить только арабские тексты из строки, используя регулярное выражение?

У меня есть строка, которая имеет как арабские, так и английские предложения. Я хочу только извлечь арабские предложения. my_string=""" What is the reason ذَلِكَ الْكِتَابُ لَا رَيْبَ فِيهِ هُدًى لِلْمُتَّقِينَ behind this? ذَلِكَ الْكِتَابُ لَا رَيْبَ فِيهِ هُدًى لِلْمُتَّقِينَ """ Эта ссылка показывает, что диапазон Unicode для арабских букв – 0600-06FF . Итак, очень простая […]

CSV, Python: правильно использовать DictWriter (ValueError: dict содержит поля не в именах полей)

У меня возникают трудности с пониманием DictWriter в модуле csv (Python 2.7). У меня это (о, и я использую библиотеку unicodecsv, потому что я читал, что есть проблемы): f = object_instance.return_a_dictionary.keys() with open('eggs.csv', 'wb') as csvfile: spamwriter = unicodecsv.DictWriter(csvfile, fieldnames=f) spamwriter.writerows(object_instance.return_a_dictionary) Поэтому я передаю экземпляр объекта. f: [u'n6s2f0e1', u'n1s0f0e0', u'n2s0f0e1', u'n3s1f0e0', u'n5s2f0e0', u'n4s1f0e1'] object_instance.return_a_dictionary: {u'n6s2f0e1': […]

Как удалить акцент в Python 3.5 и получить строку с unicodedata или другими решениями?

Я пытаюсь получить строку для использования в геокодировании google. Я проверил много потоков, но у меня все еще проблема, и я не понимаю, как ее решить. Мне нужно, чтобы addresse1 был строкой без каких-либо специальных символов. Addresse1 – это, например, «32 rue d'Athènes Paris France». addresse1= collect.replace(' ','+').replace('\n','') addresse1=unicodedata.normalize('NFKD', addresse1).encode('utf-8','ignore') здесь я получил строку без […]

Добавить заголовки в приложении Flask с помощью unicode_literals

Добавление заголовков с включенным unicode_literals, похоже, терпит неудачу с Nginx, uWSGI и простым флеш-приложением: # -*- coding: utf-8 -*- from __future__ import unicode_literals from flask import Flask, make_response app = Flask('test') @app.route('/') def index(): response = make_response() response.status_code = 401 response.headers = {'WWW-Authenticate': 'Basic realm="test"'} # Fail # response.headers = {b'WWW-Authenticate': b'Basic realm="test"'} # Succeed […]

Unicode или что в matplotlib?

Невозможно получить заголовки прямо в matplotlib: 'technologieën in °C' дает: technologieÃn in ÃC возможные решения уже пробовали: u'technologieën in °C 'не работает, и не делает: # -*- coding: utf-8 -*- в начале кода-файла. Любые решения?

Что означает sys.maxunicode?

CPython хранит строки unicode как utf-16 или utf-32 внутренне в зависимости от параметров компиляции. В сборках utf-16 строковых фрагментов Python, итераций и len похоже, работают с блоками кода, а не с кодовыми точками, так что многобайтные символы ведут себя странно. Например, на CPython 2.6 с sys.maxunicode = 65535: >>> char = u'\U0001D49E' >>> len(char) 2 […]

Python: как проверить, содержит ли строка в юникоде одинарный символ?

Я делаю фильтр, в котором я проверяю, содержит ли строка кодировки unicode (utf-8) никаких символов в верхнем регистре (на всех языках). Все в порядке со мной, если строка вообще не содержит какого-либо символа. Например: «Привет!» не пройдет фильтр, но «!» должен пройти фильтр, так как «!» это не очерченный характер. Я планировал использовать метод islower […]

Python - лучший язык программирования в мире.