Tag: unicode

Python, читающий unicode папку и имена файлов

Я новичок в Python. Я пытаюсь ввести один путь и использовать os.walk() для поиска всех файлов и возврата имен файлов. Я также хочу использовать os.path.getsize() для получения размера файла и, наконец, записать их в файл csv. Однако, если имя файла отсутствует на английском языке, но на китайском, немецком, французском и т. Д. Python не может […]

В python, извлечение неанглийских слов

У меня есть текстовый файл с английскими символами и другими языковыми символами. И используя код ниже, я хочу извлечь несколько слов из этого файла, который не является английским, особенно корейским (Unicode варьируется от AC00 до D7AF в UTF-8) Есть ли способ сделать это простым в этом коде? Нужно ли мне что-то делать? …. text = […]

Использование ввода utf-8 для модуля cmd Python

В процессе создания небольшого приложения для ноутбуков CLI я решил пойти с библиотекой python cmd (см. Также cmd на PyMOTW). Моя оболочка UTF-8. → echo $LANG fr_FR.utf-8 → echo $LC_ALL fr_FR.utf-8 И он работает достаточно хорошо. → echo "東京"東京 Запуск кода моего маленького приложения и попытки использования utf-8: → python nb.py log> foobar 2013-01-15 foobar […]

Почему Python 2.x генерирует исключение с форматированием строки + unicode?

У меня есть следующий код. Последняя строка вызывает ошибку. Почему это? class Foo(object): def __unicode__(self): return u'\u6797\u89ba\u6c11\u8b1d\u51b0\u5fc3\u6545\u5c45' def __str__(self): return self.__unicode__().encode('utf-8') print "this works %s" % (u'asdf') print "this works %s" % (Foo(),) print "this works %s %s" % (Foo(), 'asdf') print print "this also works {0} {1}".format(Foo(), u'asdf') print print "this should break %s […]

Python "\ x00" заполняется / utf-32 строка из cStringIO

Через cStringIO другой системы я написал некоторый unicode через: u'content-length'.encode('utf-8') и, читая это, используя unicode( stringio_fd.read(),'utf-8') , я получаю: u'c \ x00 \ x00 \ x00o \ x00 \ x00 \ x00n \ x00 \ x00 \ x00t \ x00 \ x00 \ x00e \ x00 \ x00 \ x00n \ x00 \ x00 \ […]

Как распознать специальный символ eol, когда я его вижу, используя Python?

Я очищаю набор исходных файлов PDF, используя Python. Получив их текст, у меня возникли проблемы с окончанием линии. Я не мог понять, что такое разделитель строк. Беда в том, что я до сих пор не знаю. Это не '\n' , или, я не думаю, '\r\n' . Однако мне удалось выделить один из этих специальных символов. […]

Кодировка символов Python Европейские акценты

Я знаю, что это не необычная проблема и что на этот вопрос уже задано несколько вопросов SO ( 1 , 2 , 3 ), но даже после выполнения рекомендаций там я все еще вижу эту ошибку (для приведенного ниже кода): uri_name = u"%s_%s" % (name[1].encode('utf-8').strip(), name[0].encode('utf-8').strip()) UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position […]

python – декодировать строку unicode

У меня есть строка в Юникоде, подобная этой mm = u'A\xe2\x80\x8ct\xe2\x80\x8ch\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8cl\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8ce\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8ct\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8ci\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8cc\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c Bilbao (n)\tC\xe2\x80\x8cD\xe2\x80\x8c \xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8cM\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8ci\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8cr\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8ca\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8cn\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8c\xe2\x80\x8cdes' Я хочу напечатать это на что-то вроде A‌t‌h‌‌‌‌‌‌l‌‌‌e‌‌‌‌t‌‌‌‌‌‌‌i‌‌‌‌‌c‌‌‌‌‌‌‌‌‌‌ Bilbao (n) но не знаю, как это сделать? Я пытаюсь использовать unicode(mm.encode("utf-8"), 'string-escape') , но в этом случае он не работает. Редактировать : @Ignacio Vazquez-Abrams прав, и есть некоторые проблемы с консолью PyCharm, […]

Python – проблема с акцентированными символами при очистке данных с веб-сайта

Я Nicola, новый пользователь Python, не имея реального опыта в программировании. Поэтому я действительно нуждаюсь в помощи с проблемой, которую у меня есть. Я написал код для очистки данных с этой веб-страницы: http://finanzalocale.interno.it/sitophp/showQuadro.php?codice=2080500230&tipo=CO&descr_ente=MODENA&anno=2009&cod_modello=CCOU&sigla=MO&tipo_cert=C&isEuro=0&quadro=02 В принципе, цель моего кода – очистить данные от всех таблиц на странице и записать их в txt-файл. Здесь я вставляю свой […]

Регулярное выражение с unicode и str

У меня есть список регулярных выражений и функция замены. regex function replacement_patterns = [(ur'\\u20ac', ur' euros'),(ur'\xe2\x82\xac', r' euros'),(ur'\b[eE]?[uU]?[rR]\b', r' euros'), (ur'\b([0-9]+)[eE][uU]?[rR]?[oO]?[sS]?\b',ur' \1 euros')] class RegexpReplacer(object): def __init__(self, patterns=replacement_patterns): self.patterns = [(re.compile(regex, re.UNICODE | re.IGNORECASE), repl) for (regex, repl) in patterns] def replace(self, text): s = text for (pattern, repl) in self.patterns: (s, count) = re.subn(pattern, […]

Python - лучший язык программирования в мире.