Tag: unicode

не может печатать символ по символу в китайской строке в Python

Мой файл test.txt содержит следующие символы: 地藏菩萨本愿经卷上 忉利天宫神通品第一 У меня есть эта простая программа: f = open("test.txt") text = f.read() f.close() print text for c in text: print c, print "\n————" for i in range(len(text)): print text[i], Вот результат: 地藏菩萨本愿经卷上忉利天宫神通品第一———— å œ ° è — マ è マ © è ミ ¨ æ œ ¬ […]

Преобразовать u '\ xe0' в '\ u00E0' в Python 2.x?

В Python 2.x, как я могу преобразовать строку unicode (ex, u'\xe0' ) в строку (здесь мне нужно, чтобы она была '\u00E0' )? Чтобы сделать это яснее. Мне нравится иметь '\u00E0' , строку длиной 6. То есть, ¥u рассматривается как 2 символа вместо одного экранированного символа.

Отображение обработчика запросов Tornado для международных символов

Я хочу иметь возможность сопоставлять URL-запросы для некоторых интернационализированных символов, например /Comisión . Это моя настройка: class Application(tornado.web.Application): def __init__(self): handlers = [ '''some handlers, and then this: ''' (r"/([\w\:\,]+)", InternationalizedHandler) ] tornado.web.Application.__init__(self, handlers, **settings) Но настройка локалей в «Торнадо», похоже, не является правильным решением. Как можно настроить регулярное выражение для захвата символов, таких как […]

Преобразование из строки, содержащей шестнадцатеричные символы в байты в python 3

У меня есть строка, которая содержит печатные и непечатаемые символы, например: '\xe8\x00\x00\x00\x00\x60\xfc\xe8\x89\x00\x00\x00\x60\x89' Какой самый «пифонесческий» способ конвертировать это в объект bytes в Python 3, то есть: b'\xe8\x00\x00\x00\x00`\xfc\xe8\x89\x00\x00\x00`\x89'

Как избежать скрининга UnicodeEncodeError

У меня есть код в моем parse_item : sel = Selector(response) item['name'] = sel.xpath('//div[@class="productDescriptionBlock"]/h2/text()').extract()[0] return item Но я получаю UnicodeEncodeError : exceptions.UnicodeEncodeError: 'charmap' codec can't encode character u'\uff01' in position 271761: character maps to <undefined> Я также попытался добавить .encode('utf-8') но все равно получить ту же ошибку. Traceback (most recent call last): File "/home/scraper/.fakeroot/lib/python2.7/site-packages/twisted/internet/base.py", line […]

Почему этот код Python 3 не удаляет символы с символом Unicode с использованием str.translate ()?

Я пытаюсь нормализовать акцентированные символы в строке в Python 3 следующим образом: from bs4 import BeautifulSoup import os def process_markup(): #the file is utf-8 encoded fn = os.path.join(os.path.dirname(__file__), 'src.txt') # markup = BeautifulSoup(open(fn), from_encoding="utf-8") for player in markup.find_all("div", class_="glossary-player"): text = player.span.string print(format_filename(text)) # Python console shows mangled characters not in utf-8 player.span.string.replace_with(format_filename(text)) dest = […]

Может ли строка быть короче при преобразовании в верхний / нижний регистр?

Строка может быть длиннее (в терминах кодов Unicode) при преобразовании в верхний или нижний регистр. Например, 'ß'.upper() оценивает значение 'SS' . Но есть ли строки, которые становятся короче? То есть существует ли строка s такая, что выражение len(s.lower()) < len(s) or len(s.upper()) < len(s) оценивает значение True ?

Юникод (кириллица), индексирование символов, переписывание в python

Я работаю с русскими словами, написанными в кириллице. Все работает отлично, за исключением того, сколько (но не всех) кириллических символов закодировано как два символа, когда на str . Например: >>>print ["ё"] ['\xd1\x91'] Это не было бы проблемой, если бы я не хотел индексировать строковые позиции или определять, где находится символ, и заменить его другим (например, […]

Замените Emoji своим описанием или именем

Я работаю над получением подмножества emojis из извлеченного текста формы API. Я бы хотел сделать замену каждого emoji для описания или имени. Я работаю над Python 3.4, и мой текущий подход относится к имени юникода с unicodedata следующим образом: nname = unicodedata.name(my_unicode) И я заменяю re.sub: re.sub('[\U0001F602-\U0001F64F]', 'new string', str(orig_string)) Я попробовал re.search, а затем […]

python unicode: при записи в файл записывается в другом формате

Я использую Python 3.4, чтобы записать строку unicode в файл. После того, как файл написан, если я открываю и вижу, это совершенно другой набор символов. КОД:- # -*- coding: utf-8 -*- with open('test.txt', 'w', encoding='utf-8') as f: name = 'أبيض' name.encode("utf-8") f.write(name) f.close() f = open('test.txt','r') for line in f.readlines(): print(line) ВЫВОД:- أبيض заранее спасибо

Interesting Posts for Van-Lav

Как извлечь исходный html из селектора Scrapy?

Как ssh подключиться через python Paramiko с открытым ключом

Получить результат работы подпроцесса python в торнадо

Могу ли я отправить переменную размером 2 байта в качестве переменной размера байта 1 байта?

распечатывать элементы списка по строкам – возможно ли использование формата

Как пересчитать значение переменной каждый раз, когда она используется?

Удаление дубликатов в Pandas, исключая одну колонку

Как я могу обозначить неиспользуемые аргументы функции?

Как сегментировать кровеносные сосуды python opencv

Как я могу уступить другому запросу при использовании пушки с асинчио?

Django и модели с несколькими внешними ключами

Получение NppExec для понимания пути к текущему файлу в Notepad ++ (для скриптов Python)

Как предотвратить повторные случайные значения?

Как получить ссылку на все классы, реализующие объект дескриптора в python

Доступ к адресу памяти в python

Python - лучший язык программирования в мире.