что же такое номер юникода?

в python:

>>> "\xc4\xe3".decode("gbk").encode("utf-8") '\xe4\xbd\xa0' >>> "\xc4\xe3".decode("gbk") u'\u4f60' 

мы можем сделать два вывода:

1. \ xc4 \ xe3 в gbk encode = \ xe4 \ xbd \ xa0 в utf-8
2. \ xc4 \ xe3 в gbk encode = \ x4f \ x60 в unicode (или, скажем, в ucs-2)

в R:

 > iconv("\xc4\xe3",from="gbk",to="utf-8",toRaw=TRUE) [[1]] [1] e4 bd a0 > iconv("\xc4\xe3",from="gbk",to="unicode",toRaw=TRUE) [[1]] [1] ff fe 60 4f 

теперь вывод 1 правильный, он такой же, как в python, как в R
заключение2 – загадка,
что же такое \ xc4 \ xe3 в gbk encode = ?? в юникоде.
в python это u '\ u4f60', в R это ff fe 60 4f
равны? какой из них правильный? все ли они правильные?

One Solution collect form web for “что же такое номер юникода?”

В python нотация \uxxxx относится к \uxxxx Unicode, а не к какой-либо кодировке этих кодовых точек.

UCS-2, UTF-16, UTF-8 – все кодировки, способные захватывать эти кодовые точки в байтах, подходящих для хранения в файлах, для передачи по сети и т. Д.

R-представление \u4f60 пункта \u4f60 включает в себя знак порядка байтов UTF-16 или спецификацию. Он указывает, какой порядок байтов выбран, где 0xFFFE означает немного endian. Python также включает его, когда вы кодируете UTF-16:

 >>> u'\uf460'.encode('utf16') '\xff\xfe`\xf4' 

Биллиан-эквивалент равен 0xFEFF. Вы можете явно кодировать utf-16be или utf-16le в python, чтобы исключить включение спецификации, поскольку вы сделали явный выбор:

 >>> u'\uf460'.encode('utf-16be') '\xf4`' >>> u'\uf460'.encode('utf-16le') '`\xf4' 

Вы действительно должны прочитать статью Юиля Спольского Юникода , а также HOWTO Python Unicode, чтобы более полно оценить разницу между Unicode и кодировками.

  • Как отправить строку, не связанную с английским юникодом, с помощью HTTP-заголовка?
  • Фильтрация определенных байтов в python
  • 7 бит до 0xEF
  • JSON добавлен в базу данных как Unicode
  • Усечение юникода, чтобы он соответствовал максимальному размеру при кодировании для переноса
  • Как декодировать необработанные литералы Unicode для читаемой строки?
  • Преобразование байтовой строки в строку юникода
  • Как может быть отказано в python 2 doctest и все же не имеет никакого значения в значениях в сообщении об ошибке?
  • Как я могу декодировать escape-код javascript unicode в Python?
  • UnicodeEncodeError при записи в файл
  • Python 2.X: Почему я не могу правильно обрабатывать Unicode?
  • Python - лучший язык программирования в мире.