что же такое номер юникода?

в python:

>>> "\xc4\xe3".decode("gbk").encode("utf-8") '\xe4\xbd\xa0' >>> "\xc4\xe3".decode("gbk") u'\u4f60' 

мы можем сделать два вывода:

1. \ xc4 \ xe3 в gbk encode = \ xe4 \ xbd \ xa0 в utf-8
2. \ xc4 \ xe3 в gbk encode = \ x4f \ x60 в unicode (или, скажем, в ucs-2)

в R:

 > iconv("\xc4\xe3",from="gbk",to="utf-8",toRaw=TRUE) [[1]] [1] e4 bd a0 > iconv("\xc4\xe3",from="gbk",to="unicode",toRaw=TRUE) [[1]] [1] ff fe 60 4f 

теперь вывод 1 правильный, он такой же, как в python, как в R
заключение2 – загадка,
что же такое \ xc4 \ xe3 в gbk encode = ?? в юникоде.
в python это u '\ u4f60', в R это ff fe 60 4f
равны? какой из них правильный? все ли они правильные?

One Solution collect form web for “что же такое номер юникода?”

В python нотация \uxxxx относится к \uxxxx Unicode, а не к какой-либо кодировке этих кодовых точек.

UCS-2, UTF-16, UTF-8 – все кодировки, способные захватывать эти кодовые точки в байтах, подходящих для хранения в файлах, для передачи по сети и т. Д.

R-представление \u4f60 пункта \u4f60 включает в себя знак порядка байтов UTF-16 или спецификацию. Он указывает, какой порядок байтов выбран, где 0xFFFE означает немного endian. Python также включает его, когда вы кодируете UTF-16:

 >>> u'\uf460'.encode('utf16') '\xff\xfe`\xf4' 

Биллиан-эквивалент равен 0xFEFF. Вы можете явно кодировать utf-16be или utf-16le в python, чтобы исключить включение спецификации, поскольку вы сделали явный выбор:

 >>> u'\uf460'.encode('utf-16be') '\xf4`' >>> u'\uf460'.encode('utf-16le') '`\xf4' 

Вы действительно должны прочитать статью Юиля Спольского Юникода , а также HOWTO Python Unicode, чтобы более полно оценить разницу между Unicode и кодировками.

  • IDLE и символы Unicode (2.5.4)
  • Чтение данных на русском языке из csv
  • Убедитесь, что Python 2.6 ftplib не поддерживает имена файлов Unicode? Альтернативы?
  • Pandas, конвертировать столбец из юникодов в столбец списка строк
  • Python: как проверить, содержит ли строка в юникоде одинарный символ?
  • Python String Cleanup + Manipulation (Акцентированные символы)
  • рисование в python
  • Печать в терминале цветами с использованием Python?
  • Python - лучший язык программирования в мире.