Tag: unicode

Разбор строк UTF-8 / unicode с lxml HTML

Я пытаюсь разобрать с помощью файла etree.HTML () текст, кодированный как UTF-8, без успеха. → python Python 2.7.1 (r271:86832, Jun 16 2011, 16:59:05) [GCC 4.2.1 (Based on Apple Inc. build 5658) (LLVM build 2335.15.00)] on darwin Type "help", "copyright", "credits" or "license" for more information. >>> from lxml import etree >>> import requests >>> headers […]

Могу ли я отключить неявные преобразования юникода Python, чтобы найти ошибки в смешанных строках?

Профилируя наш код, я был удивлен, увидев миллионы звонков C: \ Python26 \ Lib \ кодировки \ utf_8.py: 15 (декодирование) Я начал отлаживать и обнаружил, что на нашей базе кода есть много мелких ошибок, обычно сравнивая строку с юникодом или добавляя sting и unicode. Python грамотно декодирует строки и выполняет следующие операции в юникоде. Как […]

Преобразование unicode с помощью строки utf-8 в качестве содержимого для str

Я использую pyquery для анализа страницы: dom = PyQuery('http://zh.wikipedia.org/w/index.php', {'title': 'CSS', 'printable': 'yes', 'variant': 'zh-cn'}) content = dom('#mw-content-text > p').eq(0).text() но то, что я получаю в content является строкой unicode с содержимым, закодированным utf-8: u'\xe5\xb1\x82\xe5\x8f\xa0\xe6\xa0\xb7\xe5\xbc\x8f\xe8\xa1\xa8…' как я могу преобразовать его в str без потери содержимого? чтобы было ясно: Я хочу conent == '\xe5\xb1\x82\xe5\x8f\xa0\xe6\xa0\xb7\xe5\xbc\x8f\xe8\xa1\xa8' не conent […]

Не пытайтесь прочитать unicode из командной строки?

Запуск Python 2.7 При выполнении: $ python client.py get_emails -a "åäö" Я получил: usage: client.py get_emails [-h] [-a AREA] [-t {rfc2822,plain}] client.py get_emails: error: argument -a/–area: invalid unicode value: '\xc3\xa5\xc3\xa4\xc3\xb6' Это мой парсер: def _argparse(): desc = """ Simple CLI-client for… """ argparser = argparse.ArgumentParser(description=desc) subparsers = argparser.add_subparsers(dest='command') # create the parser for the "get_emails" […]

открыть файл с именем файла Unicode?

Кажется, я не могу открыть файл с именем файла юникода. Допустим, я это сделал: for i in os.listdir(): open(i, 'r') Когда я пытаюсь найти какое-то решение, я всегда получаю страницы о том, как читать и записывать строку unicode в файл, а не как открыть файл с file() или open() который имеет имя юникода.

json.dump – UnicodeDecodeError: кодек 'utf8' не может декодировать байт 0xbf в позиции 0: недопустимый стартовый байт

У меня есть data словаря, где я хранил: key – идентификатор события value – имя этого события, где value – строка UTF-8 Теперь я хочу записать эту карту в json-файл. Я попытался с этим: with open('events_map.json', 'w') as out_file: json.dump(data, out_file, indent = 4) но это дает мне ошибку: UnicodeDecodeError: кодек 'utf8' не может декодировать […]

Как я могу проверить строку юникода Python, чтобы убедиться, что он * на самом деле * является правильным Unicode?

Итак, у меня есть эта страница: http://hub.iis.sinica.edu.tw/cytoHubba/ По-видимому, все это испортилось, поскольку оно правильно декодируется, но когда я пытаюсь сохранить его в postgres, я получаю: DatabaseError: invalid byte sequence for encoding "UTF8": 0xedbdbf После этого база данных замалчивается и отказывается делать что-либо без откат, что будет немного сложно (длинный рассказ). Есть ли способ проверить, произойдет […]

Selenium webdriver и unicode

Это мой второй день с библиотекой Selenium 2, и боль с Unicode никогда не исчезает. Я просто выполняю основную операцию, хочу напечатать источник страницы: from selenium import webdriver driver = webdriver.Firefox() driver.get("http://google.com") print driver.page_source Конечно, я получаю сообщение об ошибке: UnicodeEncodeError: 'ascii' codec can't encode character u'\u0119' in position 62045: ordinal not in range(128) Как […]

Как я могу сравнить тип unicode с строкой в ​​python?

Я пытаюсь использовать понимание списка, которое сравнивает строковые объекты, но одна из строк – utf-8, побочный продукт json.loads. Сценарий: us = u'MyString' # is the utf-8 string Первая часть моего вопроса, почему это возвращает False? : us.encode('utf-8') == "MyString" ## False Часть вторая – как я могу сравнивать в понимании списка? myComp = [utfString for […]

Python NLTK: SyntaxError: не-ASCII-символ '\ xc3' в файле (анализ сглаживания -NLP)

Я играю с NLTK, чтобы выполнить задание по анализу настроений. Я использую Python 2.7. NLTK 3.0 и NUMPY 1.9.1. Это код: __author__ = 'karan' import nltk import re import sys def main(): print("Start"); # getting the stop words stopWords = open("english.txt","r"); stop_word = stopWords.read().split(); AllStopWrd = [] for wd in stop_word: AllStopWrd.append(wd); print("stop words-> ",AllStopWrd); […]

Interesting Posts
Python - лучший язык программирования в мире.