Tag: unicode

В Python, как наиболее эффективно вырезать строку UTF-8 для доставки REST?

Я начну, сказав, что я понимаю, что такое кодировка UTF-8, что это в основном, но не совсем юникод, и что ASCII – это меньший набор символов. Я также понимаю, что если у меня есть: se_body = "> Genesis 2:2 וַיְכַל אֱלֹהִים בַּיֹּום הַשְּׁבִיעִי מְלַאכְתֹּו אֲשֶׁר עָשָׂה וַיִּשְׁבֹּת בַּיֹּום הַשְּׁבִיעִי מִכָּל־מְלַאכְתֹּו אֲשֶׁר עָשָֽׂה׃ The word tr […]

Хранение длинной строки HTML в базе данных SQLite вызывает неизвестную ошибку

Я храню некоторый HTML в базе данных SQLite3 в Python. Когда я перехожу к вставке некоторого HTML в мою таблицу SQL, я получаю сообщение об ошибке, что я не понимаю, что не так, и что еще более важно, как исправить проблему. Строка ошибки: Исключение Общие. Вы не должны использовать 8-битные байты, если не используете text_factory, […]

python utf-8 japanese

У меня есть некоторые японские слова, которые я хочу преобразовать в utf-8, как показано ниже: jap_word1 = u'中山' jap_word2 = u'小倉' print jap_word1.encode('utf-8') # Doesn't work print jap_word2.encode('utf-8') # Prints properly Почему одно слово может быть правильно преобразовано в utf-8 и напечатано для отображения одинаковых символов, но не другого? (Я использую python 2.6 в Windows […]

Персонаж \ u260e

Во время веб-лома, я получил символ \ u260e в юникоде. Мой выход – «Последний курорт», «+977 1 4700525». Поэтому вместо â~Ž должно быть ☎. Как я могу вернуть его на телефонный знак (☎)? Таким образом, выход будет «The Last Resort, ☎ +977 1 4700525». Криш

Pandas, конвертировать столбец из юникодов в столбец списка строк

Один из моих столбцов u'asd,abc,tre,der34,whatever' pandas имеет u'asd,abc,tre,der34,whatever' такого типа u'asd,abc,tre,der34,whatever' . Конечные результаты должны быть столбцом списков строк: ['asd','abc','tre','der34','whatever'] . Список юникодов может также сделать: [u'asd',u'abc',u'tre',u'der34',u'whatever'] . Кстати, может случиться так, что в столбце юникод найдется нан или а ''. Любое предложение? Я знаю, что могу сделать str(df['column'].iloc[0]).split(',') и вручную добавить новый столбец или […]

Тип и формат sys.exc_info () в Python 2.71

В python 2.71 в Windows XP мне нужно использовать FTP. Мой код: try: ftp = FTP(trec.address) ftp.login(trec.login, trec.passw) s = ftp.retrlines('LIST ' + trec.filetype) ftp.quit() except: (type, value, tb) = sys.exc_info() reponse = "%s" % value Но у меня есть ошибка в последней строке: UnicodeDecodeError: кодек ascii не может декодировать байт 0xea в позиции 38: […]

Как сделать безопасное двоичное сравнение в Python?

У меня есть следующий код, который бросает предупреждение: UnicodeWarning: Unicode equal comparison failed to convert both arguments to Unicode – interpreting them as being unequal try: f = open_old(filename, "rb") aBuf = f.read(4) f.close() except: aBuf=b'' if aBuf[:3] == b'\xEF\xBB\xBF': print("…") Каков правильный способ чтения 3 байтов из файла и проверки их значений. Я ищу […]

Как декодировать юникод в китайском тексте

with open('result.txt', 'r') as f: data = f.read() print 'What type is my data:' print type(data) for i in data: print "what is i:" print i print "what type is i" print type(i) print i.encode('utf-8') У меня есть файл со строкой, и я пытаюсь прочитать файл и разбить слова по пробелу и сохранить их в […]

Как сохранить арабский текст в базе данных mysql с помощью python?

У меня есть арабская строка. txt = u'Arabic (\u0627\u0644\u0637\u064a\u0631\u0627\u0646)' Я хочу написать этот текст arabic, преобразованный в базу данных mySql. Я попытался использовать txt = smart_str(txt) или txt = text.encode('utf-8') оба эти не работают, поскольку они скрывали строку до u'Arabic (\xd8\xa7\xd9\x84\xd8\xb7\xd9\x8a\xd8\xb1\xd8\xa7\xd9\x86)' Также мой набор символов базы данных уже установлен на utf-8 ALTER DATABASE databasename CHARACTER […]

Python UnicodeDecodeError на Mac, но не на ПК?

У меня есть сценарий, который в основном объединяет файлы кода учащихся в один файл для обнаружения плагиата. Он просматривает дерево файлов, копируя все содержимое файла в один файл. Я запустил сценарий в тех же файлах на моем Mac и моем ПК. На моем ПК он работает нормально. На моем Mac он встречает 27 UnicodeDecodeErrors (возможно, […]

Python - лучший язык программирования в мире.