Tag: unicode

Как переносить синтаксический символ (Unicode) с регулярными выражениями?

Я пишу простой анализатор регулярных выражений для вывода утилиты sensors на Ubuntu. Вот пример строки текста, которую я разбора: temp1: +31.0°C (crit = +107.0°C) И вот регулярное выражение, которое я использую, чтобы сопоставить это (в Python): temp_re = re.compile(r'(temp1:)\s+(\+|-)(\d+\.\d+)\W\WC\s+' r'\(crit\s+=\s+(\+|-)(\d+\.\d+)\W\WC\).*') Этот код работает так, как ожидалось, и соответствует приведенному выше примеру текста. Единственные биты, которые […]

Полоса \ n \ t \ r в scrapy

Я пытаюсь вырезать символы \ r \ n \ t с помощью scrapy spider, создавая затем json-файл. У меня есть объект описания, который заполнен новыми строками, и он не выполняет то, что я хочу: сопоставление каждого описания с заголовком. Я попытался с картой (unicode.strip ()), но на самом деле это не работает. Являясь новичком в […]

Python: обрабатывать сломанные байты unicode при разборе строки JSON

Мой код создает некоторый контент с сайта UserVoice. Как вы знаете, UserVoice – это дерьмовое программное обеспечение, которое не может правильно обрабатывать данные; действительно, чтобы уменьшить количество текста на странице поиска, они разрезают текст, скажем, 300 символов, а затем добавляют «…» до конца. Дело в том, что они не заботятся обрезать середину многобайтового символа , […]

Преобразовать hash.digest () в unicode

import hashlib string1 = u'test' hashstring = hashlib.md5() hashstring.update(string1) string2 = hashstring.digest() unicode(string2) UnicodeDecodeError: 'ascii' codec can't decode byte 0x8f in position 1: ordinal not in range(128) Строка должна быть unicode для того, чтобы она была для меня использована, можно ли это сделать? Использование python 2.7, если это помогает …

Заменить новые строки в строке Unicode

Я пытаюсь заменить символы новой строки в строке юникода и, кажется, не хватает некоторых магических кодов. В моем конкретном примере я работаю над AppEngine и пытаюсь поместить заголовки с HTML-страниц в db.StringProperty() в моей модели. Поэтому я делаю что-то вроде: link.title = unicode(page_title,"utf-8").replace('\n','').replace('\r','') и я получаю: Property title is not multi-line Существуют ли другие коды, […]

Набор символов набора для установки pyMySQL

Я разрабатываю довольно простое веб-приложение с использованием Flask и MySQL. Я борюсь с unicode. Пользователи иногда вставляют данные, которые они копируют из Word, и они падают со старыми умными цитатами u'\u201c' . Немногие исследования показывают, что соединение, которое у меня связано с MySQL, использует кодировку Latin1 (по-видимому, по умолчанию). Как я могу указать для него […]

Есть ли простой способ сделать работу юникода в python?

Я пытаюсь разобраться с unicode в python 2.7.2. Я знаю, что есть .encode('utf-8') вещь, но 1/2 времени, когда я добавляю его, я получаю ошибки, и 1/2 раза, когда я не добавляю его. Я получаю ошибки. Есть ли способ сказать python – что я считал современным и современным языком, чтобы просто использовать unicode для строк, а […]

Как я могу открыть файлы UTF-16 на Python 2.x?

Я работаю над инструментом Python, который должен иметь возможность открывать файлы кодировок UTF-8 и UTF-16. В Python 3.2 я использую следующий код, чтобы попытаться открыть файл с помощью UTF-8, а затем попробовать его с UTF-16, если есть ошибка Unicode: def readGridFromPath(self, filepath): try: self.readGridFromFile(open(filepath,'r',encoding='utf-8')) except UnicodeDecodeError: self.readGridFromFile(open(filepath,'r',encoding='utf-16')) ( readGridFromFile либо завершит выполнение, либо поднимет UnicodeDecodeError […]

Есть ли более быстрый способ очистки управляющих символов в файле?

Раньше я очищал данные, используя фрагмент кода ниже import unicodedata, re, io all_chars = (unichr(i) for i in xrange(0x110000)) control_chars = ''.join(c for c in all_chars if unicodedata.category(c)[0] == 'C') cc_re = re.compile('[%s]' % re.escape(control_chars)) def rm_control_chars(s): # see http://www.unicode.org/reports/tr44/#General_Category_Values return cc_re.sub('', s) cleanfile = [] with io.open('filename.txt', 'r', encoding='utf8') as fin: for line in […]

Замените все акцентированные символы их эквивалентом LaTeX

Учитывая строку Unicode, я хочу заменить не-ASCII-символы кодом, создающим их LaTeX (например, с помощью é стать \'e и œ стать \oe ). Я включаю это в код Python. Это должно опираться на таблицу переводов, и я придумал следующий код, который прост и, кажется, работает красиво: accents = [ [ u"à", "\\`a"], [ u"é", "\\'e"] ] […]

Python - лучший язык программирования в мире.