Tag: unicode

Почему Python 2.x генерирует исключение с форматированием строки + unicode?

У меня есть следующий код. Последняя строка вызывает ошибку. Почему это? class Foo(object): def __unicode__(self): return u'\u6797\u89ba\u6c11\u8b1d\u51b0\u5fc3\u6545\u5c45' def __str__(self): return self.__unicode__().encode('utf-8') print "this works %s" % (u'asdf') print "this works %s" % (Foo(),) print "this works %s %s" % (Foo(), 'asdf') print print "this also works {0} {1}".format(Foo(), u'asdf') print print "this should break %s […]

Python "\ x00" заполняется / utf-32 строка из cStringIO

Через cStringIO другой системы я написал некоторый unicode через: u'content-length'.encode('utf-8') и, читая это, используя unicode( stringio_fd.read(),'utf-8') , я получаю: u'c \ x00 \ x00 \ x00o \ x00 \ x00 \ x00n \ x00 \ x00 \ x00t \ x00 \ x00 \ x00e \ x00 \ x00 \ x00n \ x00 \ x00 \ […]

Как распознать специальный символ eol, когда я его вижу, используя Python?

Я очищаю набор исходных файлов PDF, используя Python. Получив их текст, у меня возникли проблемы с окончанием линии. Я не мог понять, что такое разделитель строк. Беда в том, что я до сих пор не знаю. Это не '\n' , или, я не думаю, '\r\n' . Однако мне удалось выделить один из этих специальных символов. […]

Кодировка символов Python Европейские акценты

Я знаю, что это не необычная проблема и что на этот вопрос уже задано несколько вопросов SO ( 1 , 2 , 3 ), но даже после выполнения рекомендаций там я все еще вижу эту ошибку (для приведенного ниже кода): uri_name = u"%s_%s" % (name[1].encode('utf-8').strip(), name[0].encode('utf-8').strip()) UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position […]

python – декодировать строку unicode

У меня есть строка в Юникоде, подобная этой mm = u'A\xe2\x80\x8ct\xe2\x80\x8ch\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8cl\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8ce\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8ct\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8ci\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8cc\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c Bilbao (n)\tC\xe2\x80\x8cD\xe2\x80\x8c \xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8cM\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8ci\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8cr\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8ca\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8cn\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8cdes' Я хочу напечатать это на что-то вроде A‌t‌h‌‌‌‌‌‌l‌‌‌e‌‌‌‌t‌‌‌‌‌‌‌i‌‌‌‌‌c‌‌‌‌‌‌‌‌‌‌ Bilbao (n) но не знаю, как это сделать? Я пытаюсь использовать unicode(mm.encode("utf-8"), 'string-escape') , но в этом случае он не работает. Редактировать : @Ignacio Vazquez-Abrams прав, и есть некоторые проблемы с консолью PyCharm, […]

Python – проблема с акцентированными символами при очистке данных с веб-сайта

Я Nicola, новый пользователь Python, не имея реального опыта в программировании. Поэтому я действительно нуждаюсь в помощи с проблемой, которую у меня есть. Я написал код для очистки данных с этой веб-страницы: http://finanzalocale.interno.it/sitophp/showQuadro.php?codice=2080500230&tipo=CO&descr_ente=MODENA&anno=2009&cod_modello=CCOU&sigla=MO&tipo_cert=C&isEuro=0&quadro=02 В принципе, цель моего кода – очистить данные от всех таблиц на странице и записать их в txt-файл. Здесь я вставляю свой […]

Регулярное выражение с unicode и str

У меня есть список регулярных выражений и функция замены. regex function replacement_patterns = [(ur'\\u20ac', ur' euros'),(ur'\xe2\x82\xac', r' euros'),(ur'\b[eE]?[uU]?[rR]\b', r' euros'), (ur'\b([0-9]+)[eE][uU]?[rR]?[oO]?[sS]?\b',ur' \1 euros')] class RegexpReplacer(object): def __init__(self, patterns=replacement_patterns): self.patterns = [(re.compile(regex, re.UNICODE | re.IGNORECASE), repl) for (regex, repl) in patterns] def replace(self, text): s = text for (pattern, repl) in self.patterns: (s, count) = re.subn(pattern, […]

Проблема китайского Юникода?

На этом веб-сайте http://engine.data.cnzz.com/main.php?s=engine&uv=&st=2014-03-01&et=2014-03-31 <tr class="list03" onclick="showMen1(9);" style="cursor:pointer;"> <td id="e_9" class="qh_one">百度汇总</td> Я 百度汇总 текст и пытаюсь получить 百度汇总 но когда я r.encoding = 'utf-8' результат: ٶȻ если я не использую utf-8 результат равен °Ù¶È»ã×Ü

Как исправить этот UnicodeDecodeError, который появляется, когда я пытаюсь удалить акценты в строках Python?

Я пытаюсь использовать эту функцию: import unicodedata def remove_accents(input_str): nkfd_form = unicodedata.normalize('NFKD', unicode(input_str)) return u"".join([c for c in nkfd_form if not unicodedata.combining(c)]) в коде ниже (который распаковывает и читает файлы с не-ASCII-строками). Но я получаю эту ошибку (из этого файла библиотеки C:\Python27\Lib\encodings\utf_8.py ): Message File Name Line Position Traceback <module> C:\Users\CG\Desktop\Google Drive\Sci&Tech\projects\naivebayes\USSSALoader.py 64 getNameList C:\Users\CG\Desktop\Google […]

Регулярные выражения и коды символов в данных экспорта Scrapy

Я пытаюсь очистить веб-сайт для определенного кода HTML и экспортировать данные в файл csv. Экспортированный код заполнен регулярными выражениями и кодами символов, и каждая ячейка заключена в ['']. Ниже приведен пример некоторых экспортированных данных. [u'<td colspan="2"><b><big>Universal Universal<br>3 \xbd" ID. to 4"OD. Adapter T409<br><br></big></b><table cellpadding="0" cellspacing="0" style="width: 300px; float:\nright; margin-right: 5px; border: 0px white solid; text-align:\ncenter;"><tr><td […]

Python - лучший язык программирования в мире.