Tag: unicode

Python: удаление определенного символа (u "\ u2610") из строки

Я боролся с расшифровкой и кодированием в Python, и я не могу понять, как решить мою проблему. Я перебираю xml текстовые файлы ( образец ), которые, по-видимому, закодированы в utf-8, используя Beautiful Soup для анализа каждого файла, а затем посмотрите, содержит ли какое-либо предложение в файле одно или несколько слов из двух разных списков слов. […]

TypeError: принуждение к Unicode: нужна строка или буфер, обнаружен NoneType

Я пытаюсь создать строку SQL из скрипта python. это код: sql_query = ('insert into ithelpdesk ' '(id,display_id,subject,description,priority,status,requester_name,source,responder_id,due_by,updated_at,frDueBy,ticket_type,created_at)' ' values (' '"' + str(data['id']) + '",' '"' + str(data['display_id']) + '",' '"' + data['subject'] + '",' '"' + data['description'] + '",' '"' + str(data['priority']) + '",' '"' + str(data['status']) + '",' '"' + data['requester_name'] + '",' […]

Специальные национальные символы не будут .split () в Python

У меня проблемы с Python, когда вы читаете специальные национальные символы из текстового файла. with open("../Data/DKsnak.txt") as f: content = f.readlines() str1 = content[0] print "string:",str1 lst1 = str1.split() print "list:",lst1 Результат следующий: string: Udtræk fra observatør på årstal list: ['Udtr\xc3\xa6k', 'fra', 'observat\xc3\xb8r', 'p\xc3\xa5', '\xc3\xa5rstal'] Первая строка, как и ожидалось, включая специальные датские символы. Но […]

Можно ли использовать Google Transliteration в Python?

Я знаю, что Google позволяет транслитерацию с английского языка на несколько языков (www.google.com/transliterate). У меня есть английский список слов. Я хотел бы транслитерировать ( не переводить ) каждое слово на бенгальский язык (поддерживаемый языком Google) – для получения вывода в виде списка слов в Юникоде. Есть ли способ использовать API транслитерации в Python для этого?

Выход Unicode в stdout Python при запуске из cmd.exe

Я запускаю Windows 7, и его консоль настроена на использование шрифта Consolas, что дает мне возможность выхода из Unicode. Возможность читать Unicode в консоли была доказана мною много раз для таких программ, как Far Manager: и кириллицы, и немецкие буквы äöü можно читать на одной и той же консоли в одной строке без переключения кодирования. […]

RPython ord () с символом не-ascii

Я делаю виртуальную машину в RPython с помощью PyPy. Моя проблема заключается в том, что я преобразую каждый символ в числовое представление. Например, преобразование буквы «a» дает этот результат, 97. И затем я конвертирую 97 в hex, поэтому я получаю: 0x61. Так, например, я пытаюсь преобразовать букву «á» в шестнадцатеричное представление, которое должно быть: 0xe1, […]

python regex разделяет any \ W + с некоторыми исключениями

легко разбить текст, используя регулярное выражение для не-альфа-символов: tokens=re.split(r'(?u)\W+',text) #to split at any non-alpha unicode character и Этот ответ обеспечивает способ разделения на определенные символы. Однако мне нужно: разделение на любой unicode не-альфа дайте регулярному выражению следующие исключения: подчеркивание "_" это слэш "/" амперсанд "&" и при знаке "@" полные стопы, окруженные цифрами \ d […]

Строка UTF-8 как ключ в словаре вызывает KeyError

У меня есть словарь с unicode-строками в качестве ключей. Когда я пытаюсь получить доступ к значению, я получаю ключевую ошибку, хотя распечатка ключа в словаре и моем ключе равна: >>> test = "Byggår" >>> key = raw_dict.keys()[7] >>> print(test) Byggår >>> print(key) Byggår >>> test 'Bygg\xc3\xa5r' >>> key u'Bygg\xe5r' >>> raw_dict[test] Traceback (most recent call […]

что же такое номер юникода?

в python: >>> "\xc4\xe3".decode("gbk").encode("utf-8") '\xe4\xbd\xa0' >>> "\xc4\xe3".decode("gbk") u'\u4f60' мы можем сделать два вывода: 1. \ xc4 \ xe3 в gbk encode = \ xe4 \ xbd \ xa0 в utf-8 2. \ xc4 \ xe3 в gbk encode = \ x4f \ x60 в unicode (или, скажем, в ucs-2) в R: > iconv("\xc4\xe3",from="gbk",to="utf-8",toRaw=TRUE) [[1]] [1] […]

Python 2.7: чтение файла с китайскими иероглифами

Я пытаюсь проанализировать данные в файлах CSV с китайскими символами в их именах (например, «1 25g»). Я использую Tkinter для выбора файлов следующим образом: selectedFiles = askopenfilenames(filetypes=[("xlsx","*"),("xls","*")]) # Utilize Tkinker dialog window to choose files selectedFiles = master.tk.splitlist(selectedFiles) # Create list from files chosen Я попытался преобразовать имя файла в Юникод таким образом: selectedFiles = […]

Python - лучший язык программирования в мире.