Tag: unicode

Проблема китайского Юникода?

На этом веб-сайте http://engine.data.cnzz.com/main.php?s=engine&uv=&st=2014-03-01&et=2014-03-31 <tr class="list03" onclick="showMen1(9);" style="cursor:pointer;"> <td id="e_9" class="qh_one">百度汇总</td> Я 百度汇总 текст и пытаюсь получить 百度汇总 но когда я r.encoding = 'utf-8' результат: ٶȻ если я не использую utf-8 результат равен °Ù¶È»ã×Ü

Как исправить этот UnicodeDecodeError, который появляется, когда я пытаюсь удалить акценты в строках Python?

Я пытаюсь использовать эту функцию: import unicodedata def remove_accents(input_str): nkfd_form = unicodedata.normalize('NFKD', unicode(input_str)) return u"".join([c for c in nkfd_form if not unicodedata.combining(c)]) в коде ниже (который распаковывает и читает файлы с не-ASCII-строками). Но я получаю эту ошибку (из этого файла библиотеки C:\Python27\Lib\encodings\utf_8.py ): Message File Name Line Position Traceback <module> C:\Users\CG\Desktop\Google Drive\Sci&Tech\projects\naivebayes\USSSALoader.py 64 getNameList C:\Users\CG\Desktop\Google […]

Регулярные выражения и коды символов в данных экспорта Scrapy

Я пытаюсь очистить веб-сайт для определенного кода HTML и экспортировать данные в файл csv. Экспортированный код заполнен регулярными выражениями и кодами символов, и каждая ячейка заключена в ['']. Ниже приведен пример некоторых экспортированных данных. [u'<td colspan="2"><b><big>Universal Universal<br>3 \xbd" ID. to 4"OD. Adapter T409<br><br></big></b><table cellpadding="0" cellspacing="0" style="width: 300px; float:\nright; margin-right: 5px; border: 0px white solid; text-align:\ncenter;"><tr><td […]

Отображение UTF8 stings в терминале Ubuntu с помощью скрипта Python

В моем скрипте Python, запущенном в командной строке на Ubuntu, он выбирает кодированный UTF8 контент из базы данных MySQL. Затем я хочу напечатать строку на консоли. Отображаемые строки имеют проблему с кодировкой, так как они не отображают символы с акцентом правильно. Как это исправить? Предпочтительно сценарий будет принимать решение, а не устанавливать системную среду, для […]

Есть ли у python re (regex) альтернатива escape-последовательностям Unicode?

Python рассматривает \ uxxxx как символ символа unicode внутри строкового литерала (например, u "\ u2014" интерпретируется как символ Unicode U + 2014). Но я только что обнаружил (Python 2.7), что стандартный модуль регулярных выражений не рассматривает \ uxxxx как символ Юникода. Пример: codepoint = 2014 # Say I got this dynamically from somewhere test = […]

UnicodeEncodeError при использовании метода pandas to_sql на фрейме данных с именами столбцов Unicode

Это мое первое сообщение о переполнении стека, так что несите меня. Я прочесываю интернет целый день, и я не смог решить эту проблему. В принципе, у меня есть Pandas DataFrame с символами unicode в именах столбцов, и я получаю UnicodeEncodeError, когда пытаюсь использовать to_sql для хранения данных в базе данных. Я могу воспроизвести ошибку с […]

Почему Python2 и Python3 относятся к одинаковой директории Windows по-разному?

Мой язык Windows – китайский. Чтобы проиллюстрировать мою точку зрения, я использую pathlib пакета. from pathlib import * rootdir=Path(r'D:\新建文件夹') print(rootdir.exists()) Python2.7 Я получаю False Python3 Я получаю True Любые идеи? Спасибо за любой совет. Для Python2.7 вы можете установить pathlib с помощью " pip install pathlib "

Python Unicode UnicodeEncodeError

У меня возникают проблемы с попыткой конвертировать строку UTF-8 в unicode. Я получаю ошибку. UnicodeEncodeError: 'ascii' codec can't encode characters in position 73-75: ordinal not in range(128) Я попробовал обернуть это в блок try / except но затем Google дал мне ошибку системного администратора, которая была одной строкой. Может кто-нибудь предложить, как поймать эту ошибку […]

Отправить HTML-почту с помощью Unicode

Я изменил пример из документов python, чтобы проверить unicode в модуле электронной почты. #!/usr/bin/env python # -*- coding: utf-8 -*- from __future__ import absolute_import, division, unicode_literals, print_function import smtplib from email.mime.multipart import MIMEMultipart from email.mime.text import MIMEText # me == my email address # you == recipient's email address me = "my@email.com" you = "your@email.com" […]

Кодирование UTF-8 в Python

У меня есть символ UTF-8, закодированный с `_ 'между ними, например,' _ea_b4_80 '. Я пытаюсь преобразовать его в символ UTF-8, используя метод replace, но я не могу получить правильную кодировку. Это пример кода: import sys reload(sys) sys.setdefaultencoding('utf8') r = '_ea_b4_80' r2 = '\xea\xb4\x80' r = r.replace('_', '\\x') print r print r.encode("utf-8") print r2 В этом […]

Python - лучший язык программирования в мире.