Tag: unicode

Набор символов набора для установки pyMySQL

Я разрабатываю довольно простое веб-приложение с использованием Flask и MySQL. Я борюсь с unicode. Пользователи иногда вставляют данные, которые они копируют из Word, и они падают со старыми умными цитатами u'\u201c' . Немногие исследования показывают, что соединение, которое у меня связано с MySQL, использует кодировку Latin1 (по-видимому, по умолчанию). Как я могу указать для него […]

Есть ли простой способ сделать работу юникода в python?

Я пытаюсь разобраться с unicode в python 2.7.2. Я знаю, что есть .encode('utf-8') вещь, но 1/2 времени, когда я добавляю его, я получаю ошибки, и 1/2 раза, когда я не добавляю его. Я получаю ошибки. Есть ли способ сказать python – что я считал современным и современным языком, чтобы просто использовать unicode для строк, а […]

Как я могу открыть файлы UTF-16 на Python 2.x?

Я работаю над инструментом Python, который должен иметь возможность открывать файлы кодировок UTF-8 и UTF-16. В Python 3.2 я использую следующий код, чтобы попытаться открыть файл с помощью UTF-8, а затем попробовать его с UTF-16, если есть ошибка Unicode: def readGridFromPath(self, filepath): try: self.readGridFromFile(open(filepath,'r',encoding='utf-8')) except UnicodeDecodeError: self.readGridFromFile(open(filepath,'r',encoding='utf-16')) ( readGridFromFile либо завершит выполнение, либо поднимет UnicodeDecodeError […]

Есть ли более быстрый способ очистки управляющих символов в файле?

Раньше я очищал данные, используя фрагмент кода ниже import unicodedata, re, io all_chars = (unichr(i) for i in xrange(0x110000)) control_chars = ''.join(c for c in all_chars if unicodedata.category(c)[0] == 'C') cc_re = re.compile('[%s]' % re.escape(control_chars)) def rm_control_chars(s): # see http://www.unicode.org/reports/tr44/#General_Category_Values return cc_re.sub('', s) cleanfile = [] with io.open('filename.txt', 'r', encoding='utf8') as fin: for line in […]

Замените все акцентированные символы их эквивалентом LaTeX

Учитывая строку Unicode, я хочу заменить не-ASCII-символы кодом, создающим их LaTeX (например, с помощью é стать \'e и œ стать \oe ). Я включаю это в код Python. Это должно опираться на таблицу переводов, и я придумал следующий код, который прост и, кажется, работает красиво: accents = [ [ u"à", "\\`a"], [ u"é", "\\'e"] ] […]

Кодирование кода кодирования Unicode Python не в диапазоне <128> с знаком Euro

Я должен прочитать XML-файл на Python и захватить различные вещи, и я столкнулся с разочаровывающей ошибкой с Unicode Encode Error, которую я не мог понять даже при поиске в Google. Вот фрагменты моего кода: #!/usr/bin/python # coding: utf-8 from xml.dom.minidom import parseString with open('data.txt','w') as fout: #do a lot of stuff nameObj = data.getElementsByTagName('name')[0] name […]

как извлечь строку unicode с boost.python

Кажется, что код сработает, когда я extract<const char*>("a unicode string") Кто-нибудь знает, как это решить?

Анализ ввода Unicode с использованием python json.loads

Каков наилучший способ загрузки JSON Strings в Python? Я хочу использовать json.loads для обработки unicode следующим образом: import json json.loads(unicode_string_to_load) Я также попытался поставить параметр «encoding» со значением «utf-16», но ошибка не исчезла. Полный SSCCE с ошибкой: # -*- coding: utf-8 -*- import json value = '{"foo" : "bar"}' print(json.loads(value)['foo']) #This is correct, prints 'bar' […]

Почему я получаю ошибку «TypeError: принуждение к Unicode: нужна строка или буфер, int found»?

После запуска этой небольшой программы: #!/usr/bin/env python2.7 # -*-coding:utf-8 -* a = 1 b = 2 c = 3 title = u"""a=""" + a + u""", b=""" + str(b) + \ u""", c=""" + str(c) print(title) Я получаю следующую ошибку: u""", c=""" + str(c) TypeError: coercing to Unicode: need string or buffer, int found Но […]

Принуждение модуля Python json к работе с ASCII

Я использую json.dump () и json.load () для сохранения / чтения словаря строк на / с диска. Проблема в том, что я не могу иметь ни одной строки в unicode. Кажется, что они находятся в юникоде независимо от того, как я устанавливаю параметры для дампа / загрузки (включая security_ascii и кодировку).

Python - лучший язык программирования в мире.