Tag: unicode

python regex разделяет any \ W + с некоторыми исключениями

легко разбить текст, используя регулярное выражение для не-альфа-символов: tokens=re.split(r'(?u)\W+',text) #to split at any non-alpha unicode character и Этот ответ обеспечивает способ разделения на определенные символы. Однако мне нужно: разделение на любой unicode не-альфа дайте регулярному выражению следующие исключения: подчеркивание "_" это слэш "/" амперсанд "&" и при знаке "@" полные стопы, окруженные цифрами \ d […]

Строка UTF-8 как ключ в словаре вызывает KeyError

У меня есть словарь с unicode-строками в качестве ключей. Когда я пытаюсь получить доступ к значению, я получаю ключевую ошибку, хотя распечатка ключа в словаре и моем ключе равна: >>> test = "Byggår" >>> key = raw_dict.keys()[7] >>> print(test) Byggår >>> print(key) Byggår >>> test 'Bygg\xc3\xa5r' >>> key u'Bygg\xe5r' >>> raw_dict[test] Traceback (most recent call […]

что же такое номер юникода?

в python: >>> "\xc4\xe3".decode("gbk").encode("utf-8") '\xe4\xbd\xa0' >>> "\xc4\xe3".decode("gbk") u'\u4f60' мы можем сделать два вывода: 1. \ xc4 \ xe3 в gbk encode = \ xe4 \ xbd \ xa0 в utf-8 2. \ xc4 \ xe3 в gbk encode = \ x4f \ x60 в unicode (или, скажем, в ucs-2) в R: > iconv("\xc4\xe3",from="gbk",to="utf-8",toRaw=TRUE) [[1]] [1] […]

Python 2.7: чтение файла с китайскими иероглифами

Я пытаюсь проанализировать данные в файлах CSV с китайскими символами в их именах (например, «1 25g»). Я использую Tkinter для выбора файлов следующим образом: selectedFiles = askopenfilenames(filetypes=[("xlsx","*"),("xls","*")]) # Utilize Tkinker dialog window to choose files selectedFiles = master.tk.splitlist(selectedFiles) # Create list from files chosen Я попытался преобразовать имя файла в Юникод таким образом: selectedFiles = […]

Python Undo Unicode Question

Предположим, у меня есть следующие две переменные: bob1 = u'bob\xf0\xa4\xad\xa2' а также bob2 = 'bob\xf0\xa4\xad\xa2' Как я могу получить значение bob1 как значение bob2. AKA, как мне развернуть форматирование Unicode, но сохранить значение escapped hex? Если я это сделаю: bob1.encode('utf8') 'bob\xc3\xb0\xc2\xa4\xc2\xad\xc2\xa2' Это не правильно… Помогите!

JSON добавлен в базу данных как Unicode

Я пытаюсь сохранить запрос JSON как строки в базе данных, но имею некоторые проблемы: по какой-то причине мои данные сохраняются в базе данных как строка Unicode. Что я имею в виду, так это то, что в базе данных сохраняются такие строки: [{u'content': u'Treehouse', u'name': u'opportunity_name'}, {u'content': u'Robert', u'name': u'user_firstname'}, {u'content': u'Warren', u'name': u'client_firstname'}, {u'content': u'Buffett', […]

Python 2.7.2: plistlib с itunes xml

Я читаю созданный itunes xml плейлист с plistib. Xml имеет заголовок utf8. Когда я читаю xml с plistib, я получаю как unicode (например, «Name»: u'Don \ u2019t You Remember »), так и строки байтов (например,« Name »:« Where Eagles Dare »). Стандартный совет – как можно скорее декодировать то, что вы читаете с правильным кодированием, […]

Python, читающий unicode папку и имена файлов

Я новичок в Python. Я пытаюсь ввести один путь и использовать os.walk() для поиска всех файлов и возврата имен файлов. Я также хочу использовать os.path.getsize() для получения размера файла и, наконец, записать их в файл csv. Однако, если имя файла отсутствует на английском языке, но на китайском, немецком, французском и т. Д. Python не может […]

В python, извлечение неанглийских слов

У меня есть текстовый файл с английскими символами и другими языковыми символами. И используя код ниже, я хочу извлечь несколько слов из этого файла, который не является английским, особенно корейским (Unicode варьируется от AC00 до D7AF в UTF-8) Есть ли способ сделать это простым в этом коде? Нужно ли мне что-то делать? …. text = […]

Использование ввода utf-8 для модуля cmd Python

В процессе создания небольшого приложения для ноутбуков CLI я решил пойти с библиотекой python cmd (см. Также cmd на PyMOTW). Моя оболочка UTF-8. → echo $LANG fr_FR.utf-8 → echo $LC_ALL fr_FR.utf-8 И он работает достаточно хорошо. → echo "東京"東京 Запуск кода моего маленького приложения и попытки использования utf-8: → python nb.py log> foobar 2013-01-15 foobar […]

Python - лучший язык программирования в мире.