Tag: unicode

Каков правильный способ использования символов Юникода в регулярном выражении python

В процессе соскабливания некоторых документов с использованием Python 2.7 я столкнулся с некоторыми раздражающими разделителями страниц, которые я решил удалить. Сепараторы используют некоторые фанковые символы. Я уже задал здесь один вопрос о том, как заставить этих персонажей показывать коды utf-8. Используются два символа не ASCII: '\xc2\xad' и '\x0c' . Теперь мне просто нужно удалить эти […]

Невозможно декодировать строку Unicode в Python 2.4

Это в python 2.4. Вот моя ситуация. Я вытаскиваю строку из базы данных, и она содержит umlauted 'o' (\ xf6). В этот момент, если я запустил тип (значение), он вернет str. Затем я пытаюсь запустить .decode ('utf-8'), и я получаю сообщение об ошибке ('utf8' кодек не может декодировать байты в позиции 1-4). На самом деле […]

Unicode Encode Error: кодек 'ascii' не может кодировать символ u '\ u2019'

Я пытаюсь читать html-файл, но при поиске заголовков и URL-адресов для сравнения с моим ключевым словом 'alist' я получаю эту ошибку. Unicode Encode Error: 'ascii' codec can't encode character u'\u2019'. Ошибка в ссылке ( http://tinypic.com/r/307w8bl/8 ) Код for q in soup.find_all('a'): title = (q.get('title')) url = ((q.get('href'))) length = len(alist) i = 0 while length […]

Удаление символов, отличных от ASCII, из файла текста

Эксперты Python: У меня есть предложение вроде: "this time air\u00e6\u00e3o was filled\u00e3o" Я хочу удалить символы unicode unicode. Я могу просто использовать следующий код и функцию: def removeNonAscii(s): return "".join(filter(lambda x: ord(x)<128, s)) sentence = "this time air\u00e6\u00e3o was filled\u00e3o" sentence = removeNonAscii(sentence) print(sentence) то он появляется: "this time airo was filledo" , отлично работает, […]

Преобразование файла в Ascii исключает исключения

В результате моего предыдущего вопроса я закодировал это: def ConvertFileToAscii(args, filePath): try: # Firstly, make sure that the file is writable by all, otherwise we can't update it os.chmod(filePath, 0o666) with open(filePath, "rb") as file: contentOfFile = file.read() unicodeData = contentOfFile.decode("utf-8") asciiData = unicodeData.encode("ascii", "ignore") asciiData = unicodedata.normalize('NFKD', unicodeData).encode('ASCII', 'ignore') temporaryFile = tempfile.NamedTemporaryFile(mode='wt', delete=False) temporaryFileName […]

Альтернатива os.path.expanduser ("~")?

В python 2.7.x для Unicode нарушается os.path.expanduser("~") . Это означает, что вы получаете исключение, если в расширении «~» есть символы не-ascii. http://bugs.python.org/issue13207 Как я могу достичь того же, каким-то другим способом? (То есть, как я могу получить путь к «домашнему каталогу» пользователя, который обычно будет C:\Users\usern-name на Win7)?

Как извлечь последовательности символов Unicode из исполняемого файла MZ?

Я хочу получить строки Unicode из двоичных файлов (.exe). http://i45.tinypic.com/23u61ie.png Когда я использую такой код: `unicode_str = re.compile( u'[\u0020-\u007e]{1,}',re.UNICODE )` он работает, но он возвращает только разделенные символы, поэтому, когда я пытаюсь изменить квантификатор на 3: Python: unicode_str = re.compile( u'[\u0020-\u007e]{3,}',re.UNICODE ) Perl: my @a = ( $file =~ /[\x{0020}-\x{007e}]{3,}/gs ); Я получаю только символы […]

Чтение unicodecsv из строки unicode не работает?

У меня возникли проблемы с чтением строки CSV в unicode в python-unicodescv: >>> import unicodecsv, StringIO >>> f = StringIO.StringIO(u'é,é') >>> r = unicodecsv.reader(f, encoding='utf-8') >>> row = r.next() Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/Users/guy/test/.env/lib/python2.7/site-packages/unicodecsv/__init__.py", line 101, in next row = self.reader.next() UnicodeEncodeError: 'ascii' codec can't encode character […]

преобразование строки unicode в python

Мне нужно преобразовать строки Unicode в Python в другие типы, такие как unsigned и signed int 8 bits, unsigned и signed int 16 bits, unsigned и signed int 32 bits, unsigned и signed int 64 bits, double, float, string, unsigned и signed 8 бит, неподписанные и подписанные 16-битные, неподписанные и подписанные 32-разрядные, неподписанные и подписанные […]

Отсутствуют кодеки Unicode на kivy / Python на Android?

У меня есть программа под управлением kivy, которая отлично работает на Windows, но не удается открыть файл на Android (1.8.0 на обеих платформах). Странно то, что сообщение об ошибке указывает, что он пытается декодировать ASCII, когда я просто прошу utf-8; также файл не имеет символа 0xFF в любом месте – я проверил с помощью утилиты […]

Python - лучший язык программирования в мире.