Пиренейский пилинг: исправить символы перед загрузкой

У меня есть маринованный объект (список с несколькими массивными массивами в нем), который был создан в Windows и, по-видимому, сохранен в файле, загруженном как текст, а не в двоичном режиме (т. Е. С open(filename, 'w') вместо open(filename, 'wb') ). Результат заключается в том, что теперь я не могу ее разблокировать (даже не в Windows), потому что он заражен символами \r (и, возможно, больше)? Основная жалоба

 ImportError: No module named multiarray 

предположительно потому, что он ищет numpy.core.multiarray\r , которого, конечно, не существует. Простое удаление символов \r не выполняло трюк (использовалось как sed -e 's/\r//g' и в python s = file.read().replace('\r', '') , но оба разрывают файл и дают cPickle.UnpicklingError позже)

Проблема в том, что мне действительно нужно получить данные из объектов. Любые идеи по исправлению файлов?

Изменить: по запросу первые несколько сотен байт моего файла, Octal:

 \x80\x02]q\x01(}q\x02(U\r\ntotal_timeq\x03G?\x90\x15r\xc9(s\x00U\rreaction_timeq\x04NU\x0ejump_directionq\x05cnumpy.core.multiarray\r\nscalar\r\nq\x06cnumpy\r\ndtype\r\nq\x07U\x02f8K\x00K\x01\x87Rq\x08(K\x03U\x01<NNNJ\xff\xff\xff\xffJ\xff\xff\xff\xffK\x00tbU\x08\x025\x9d\x13\xfc#\xc8?\x86Rq\tU\x14normalised_directionq\r\nh\x06h\x08U\x08\xf0\xf9,\x0eA\x18\xf8?\x86Rq\x0bU\rjump_distanceq\x0ch\x06h\x08U\x08\x13\x14\xea&\xb0\x9b\x1a@\x86Rq\rU\x04jumpq\x0ecnumpy.core.multiarray\r\n_reconstruct\r\nq\x0fcnumpy\r\nndarray\r\nq\x10K\x00\x85U\x01b\x87Rq\x11(K\x01K\x02\x85h\x08\x89U\x10\x87\x16\xdaEG\xf4\xf3?\x06`OC\xe7"\x1a@tbU\x0emovement_speedq\x12h\x06h\x08U\x08\\p\xf5[2\xc2\xef?\x86Rq\x13U\x0ctrial_lengthq\x14G@\t\x98\x87\xf8\x1a\xb4\xbaU\tconditionq\x15U\x0bhigh_mentalq\x16U\x07subjectq\x17K\x02U\x12movement_directionq\x18h\x06h\x08U\x08\xde\x06\xcf\x1c50\xfd?\x86Rq\x19U\x08positionq\x1ah\x0fh\x10K\x00\x85U\x01b\x87Rq\x1b(K\x01K\x02\x85h\x08\x89U\x10K\xb7\xb4\x07q=\x1e\xc0\xf2\xc2YI\xb7U&\xc0tbU\x04typeq\x1ch\x0eU\x08movementq\x1dh\x0fh\x10K\x00\x85U\x01b\x87Rq\x1e(K\x01K\x02\x85h\x08\x89U\x10\xad8\x9c9\x10\xb5\xee\xbf\xffa\xa2hWR\xcf?tbu}q\x1f(h\x03G@\t\xba\xbc\xb8\xad\xc8\x14h\x04G?\xd9\x99%]\xadV\x00h\x05h\x06h\x08U\x08\xe3X\xa9=\xc1\xb1\xeb?\x86Rq h\r\nh\x06h\x08U\x08\x88\xf7\xb9\xc1\t\xd6\xff?\x86Rq!h\x0ch\x06h\x08U\x08v\x7f\xeb\x11\xea5\r@\x86Rq"h\x0eh\x0fh\x10K\x00\x85U\x01b\x87Rq#(K\x01K\x02\x85h\x08\x89U\x10\xcd\xd9\x92\x9a\x94=\x06@]C\xaf\xef\xeb\xef\x02@tbh\x12h\x06h\x08U\x08-\x9c&\x185\xfd\xef?\x86Rq$h\x14G@\r\xb8W\xb2`V\xach\x15h\x16h\x17K\x02h\x18h\x06h\x08U\x08\x8e\x87\xd1\xc2 

Вы также можете скачать весь файл (22k).

4 Solutions collect form web for “Пиренейский пилинг: исправить символы перед загрузкой”

Предполагая, что файл был создан с помощью метода протокола по умолчанию = 0, совместимого с ASCII, вы должны иметь возможность загружать его в любом месте, используя open('pickled_file', 'rU') т.е. универсальные новые строки.

Если это не сработает, покажите нам первые несколько сотен байт: print repr(open('pickled_file', 'rb').read(200)) и вставьте результаты в редактирование вашего вопроса.

Обновление после публикации содержимого файла:

Ваш файл начинается с '\x80\x02' ; он был сброшен с протоколом 2, последним / лучшим. Протоколы 1 и 2 являются бинарными протоколами. Ваш файл был записан в текстовом режиме в Windows. Это привело к тому, что каждый '\n' был преобразован в '\r\n' с помощью среды выполнения C. Файлы должны открываться в двоичном режиме следующим образом:

 with open('result.pickle', 'wb') as f: # b for binary pickle.dump(obj, f, pickle.HIGHEST_PROTOCOL) with open('result.pickle', 'rb') as f: # b for binary obj = pickle.load(f) 

Документы здесь . Этот код будет работать как в Windows, так и в системах, отличных от Windows.

Вы можете восстановить исходное изображение рассола, прочитав файл в двоичном режиме и затем отменив повреждение, заменив все вхождения '\r\n' на '\n' . Примечание. Эта процедура восстановления необходима, если вы пытаетесь ее прочитать в Windows или нет.

Новые строки в Windows – это не просто '\r' , это CRLF, или '\r\n' .

Дайте file.read().replace('\r\n', '\n') попытку. Вы ранее удаляли возврат каретки, который, возможно, не был частью новых строк.

Вы не можете – в Windows – просто открыть файл в текстовом режиме, так же, как он был написан, прочитать его, а затем записать его в другой файл, открытый правильно в двоичном режиме?

Вы пытались перелистывать в текстовом режиме? То есть,

 x = pickle.load(open(filename, 'r')) 

(В Windows, конечно.)

  • Отличный сценарий на питоне, чтобы получить удовольствие от обучения подростку, изучающего питон?
  • Подход к анализу файла и создание динамической структуры данных для использования другой программой
  • Как получить корневой путь приложения в GAE
  • Проверить код Python для определенных операторов
  • настроить логин в Google App Engine
  • Могу ли я использовать события с помощью REST api Firebase?
  • Перенаправить печать в список строк?
  • Python - динамически вызывать функцию в модуле
  • Позиционный аргумент против ключевого слова
  • Быстрый способ возврата списка без определенного элемента в Python
  • Как открыть несколько файлов по одному и распечатать содержимое в Python
  • Python - лучший язык программирования в мире.