что же такое номер юникода?

в python:

>>> "\xc4\xe3".decode("gbk").encode("utf-8") '\xe4\xbd\xa0' >>> "\xc4\xe3".decode("gbk") u'\u4f60' 

мы можем сделать два вывода:

1. \ xc4 \ xe3 в gbk encode = \ xe4 \ xbd \ xa0 в utf-8
2. \ xc4 \ xe3 в gbk encode = \ x4f \ x60 в unicode (или, скажем, в ucs-2)

в R:

 > iconv("\xc4\xe3",from="gbk",to="utf-8",toRaw=TRUE) [[1]] [1] e4 bd a0 > iconv("\xc4\xe3",from="gbk",to="unicode",toRaw=TRUE) [[1]] [1] ff fe 60 4f 

теперь вывод 1 правильный, он такой же, как в python, как в R
заключение2 – загадка,
что же такое \ xc4 \ xe3 в gbk encode = ?? в юникоде.
в python это u '\ u4f60', в R это ff fe 60 4f
равны? какой из них правильный? все ли они правильные?

One Solution collect form web for “что же такое номер юникода?”

В python нотация \uxxxx относится к \uxxxx Unicode, а не к какой-либо кодировке этих кодовых точек.

UCS-2, UTF-16, UTF-8 – все кодировки, способные захватывать эти кодовые точки в байтах, подходящих для хранения в файлах, для передачи по сети и т. Д.

R-представление \u4f60 пункта \u4f60 включает в себя знак порядка байтов UTF-16 или спецификацию. Он указывает, какой порядок байтов выбран, где 0xFFFE означает немного endian. Python также включает его, когда вы кодируете UTF-16:

 >>> u'\uf460'.encode('utf16') '\xff\xfe`\xf4' 

Биллиан-эквивалент равен 0xFEFF. Вы можете явно кодировать utf-16be или utf-16le в python, чтобы исключить включение спецификации, поскольку вы сделали явный выбор:

 >>> u'\uf460'.encode('utf-16be') '\xf4`' >>> u'\uf460'.encode('utf-16le') '`\xf4' 

Вы действительно должны прочитать статью Юиля Спольского Юникода , а также HOWTO Python Unicode, чтобы более полно оценить разницу между Unicode и кодировками.

  • Кодировка Unicode для файловой системы в Mac OS X неверна в Python?
  • python unicode: Как я могу судить, нужно ли декодировать строку в utf-8?
  • «TypeError: объекты Unicode должны быть закодированы перед хэшированием»
  • UnicodeDecodeError при использовании json.dumps ()
  • Python UnicodeDecodeError - Я неправильно понимаю кодировку?
  • Как преобразовать символы Unicode с акцентом в чистый ascii без акцентов?
  • Преобразование Unicode в UTF-8 Python
  • Усечение строки до байтовой длины в Python
  • Python - лучший язык программирования в мире.