Переобучение начального облака Google застряло на глобальном шаге 0

Я следую за учебниками цветов для переобучения в google cloud ml. Я могу запускать учебник, тренировать, прогнозировать, просто отлично.

Затем я заменил набор данных цветов для собственного тестового набора данных. Оптическое распознавание символов изображения.

введите описание изображения здесь

Мой полный код здесь

Файл Dict для ярлыков

Eval set

Учебный комплект

Запуск из недавней сборки докеров, предоставляемой Google.

`docker run -it -p "127.0.0.1:8080:8080" --entrypoint=/bin/bash gcr.io/cloud-datalab/datalab:local-20161227 

Я могу предварительно обрабатывать файлы и отправлять учебное задание, используя

  # Submit training job. gcloud beta ml jobs submit training "$JOB_ID" \ --module-name trainer.task \ --package-path trainer \ --staging-bucket "$BUCKET" \ --region us-central1 \ -- \ --output_path "${GCS_PATH}/training" \ --eval_data_paths "${GCS_PATH}/preproc/eval*" \ --train_data_paths "${GCS_PATH}/preproc/train*" 

но он никогда не делает его прошлым глобальным шагом 0. Учебник цветов тренировался примерно через ~ 1 час на свободном уровне. Я пропустил обучение до 11 часов. Нет движения.

введите описание изображения здесь

Оглядываясь на stackdriver, ничего не прогрессирует.

введите описание изображения здесь

Я также попробовал крошечный набор данных для игрушки из 20 учебных изображений и 10 изображений eval. Тот же вопрос.

Контейнер GCS выглядит так: введите описание изображения здесь

Возможно, неудивительно, что я не могу представить этот журнал в тензодатчике, и ничего не показывать.

Полный учебный журнал:

 INFO 2017-01-10 17:22:00 +0000 unknown_task Validating job requirements... INFO 2017-01-10 17:22:01 +0000 unknown_task Job creation request has been successfully validated. INFO 2017-01-10 17:22:01 +0000 unknown_task Job MeerkatReader_MeerkatReader_20170110_170701 is queued. INFO 2017-01-10 17:22:07 +0000 unknown_task Waiting for job to be provisioned. INFO 2017-01-10 17:22:07 +0000 unknown_task Waiting for TensorFlow to start. INFO 2017-01-10 17:22:10 +0000 master-replica-0 Running task with arguments: --cluster={"master": ["master-d4f6-0:2222"]} --task={"type": "master", "index": 0} --job={ INFO 2017-01-10 17:22:10 +0000 master-replica-0 "package_uris": ["gs://api-project-773889352370-ml/MeerkatReader_MeerkatReader_20170110_170701/f78d90a60f615a2d108d06557818eb4f82ffa94a/trainer-0.1.tar.gz"], INFO 2017-01-10 17:22:10 +0000 master-replica-0 "python_module": "trainer.task", INFO 2017-01-10 17:22:10 +0000 master-replica-0 "args": ["--output_path", "gs://api-project-773889352370-ml/MeerkatReader/MeerkatReader_MeerkatReader_20170110_170701/training", "--eval_data_paths", "gs://api-project-773889352370-ml/MeerkatReader/MeerkatReader_MeerkatReader_20170110_170701/preproc/eval*", "--train_data_paths", "gs://api-project-773889352370-ml/MeerkatReader/MeerkatReader_MeerkatReader_20170110_170701/preproc/train*"], INFO 2017-01-10 17:22:10 +0000 master-replica-0 "region": "us-central1" INFO 2017-01-10 17:22:10 +0000 master-replica-0 } --beta INFO 2017-01-10 17:22:10 +0000 master-replica-0 Downloading the package: gs://api-project-773889352370-ml/MeerkatReader_MeerkatReader_20170110_170701/f78d90a60f615a2d108d06557818eb4f82ffa94a/trainer-0.1.tar.gz INFO 2017-01-10 17:22:10 +0000 master-replica-0 Running command: gsutil -q cp gs://api-project-773889352370-ml/MeerkatReader_MeerkatReader_20170110_170701/f78d90a60f615a2d108d06557818eb4f82ffa94a/trainer-0.1.tar.gz trainer-0.1.tar.gz INFO 2017-01-10 17:22:12 +0000 master-replica-0 Building wheels for collected packages: trainer INFO 2017-01-10 17:22:12 +0000 master-replica-0 creating '/tmp/tmpSgdSzOpip-wheel-/trainer-0.1-cp27-none-any.whl' and adding '.' to it INFO 2017-01-10 17:22:12 +0000 master-replica-0 adding 'trainer/model.py' INFO 2017-01-10 17:22:12 +0000 master-replica-0 adding 'trainer/util.py' INFO 2017-01-10 17:22:12 +0000 master-replica-0 adding 'trainer/preprocess.py' INFO 2017-01-10 17:22:12 +0000 master-replica-0 adding 'trainer/task.py' INFO 2017-01-10 17:22:12 +0000 master-replica-0 adding 'trainer-0.1.dist-info/metadata.json' INFO 2017-01-10 17:22:12 +0000 master-replica-0 adding 'trainer-0.1.dist-info/WHEEL' INFO 2017-01-10 17:22:12 +0000 master-replica-0 adding 'trainer-0.1.dist-info/METADATA' INFO 2017-01-10 17:22:12 +0000 master-replica-0 Running setup.py bdist_wheel for trainer: finished with status 'done' INFO 2017-01-10 17:22:12 +0000 master-replica-0 Stored in directory: /root/.cache/pip/wheels/e8/0c/c7/b77d64796dbbac82503870c4881d606fa27e63942e07c75f0e INFO 2017-01-10 17:22:12 +0000 master-replica-0 Successfully built trainer INFO 2017-01-10 17:22:13 +0000 master-replica-0 Running command: python -m trainer.task --output_path gs://api-project-773889352370-ml/MeerkatReader/MeerkatReader_MeerkatReader_20170110_170701/training --eval_data_paths gs://api-project-773889352370-ml/MeerkatReader/MeerkatReader_MeerkatReader_20170110_170701/preproc/eval* --train_data_paths gs://api-project-773889352370-ml/MeerkatReader/MeerkatReader_MeerkatReader_20170110_170701/preproc/train* INFO 2017-01-10 17:22:14 +0000 master-replica-0 Starting master/0 INFO 2017-01-10 17:22:14 +0000 master-replica-0 Initialize GrpcChannelCache for job master -> {0 -> localhost:2222} INFO 2017-01-10 17:22:14 +0000 master-replica-0 Started server with target: grpc://localhost:2222 ERROR 2017-01-10 17:22:16 +0000 master-replica-0 device_filters: "/job:ps" INFO 2017-01-10 17:22:19 +0000 master-replica-0 global_step/sec: 0 

Просто повторяю последнюю строку, пока я не убью ее.

Является ли моя ментальная модель для этой службы неправильной? Все предложения приветствуются.

One Solution collect form web for “Переобучение начального облака Google застряло на глобальном шаге 0”

Все выглядит хорошо. Мое подозрение в том, что у вас есть проблемы с вашими данными. В частности, я подозреваю, что TF не может прочитать данные из ваших файлов GCS (они пустые?)? В результате, когда вы вызываете поезд, TF заканчивает блокировку, пытаясь прочитать пакет данных, который он не может сделать.

Я бы предложил добавить заявления о регистрации во время вызова session.run в Trainer.run_training . Это скажет вам, является ли это той линией, где она застревает.

Я также предлагаю проверить размеры ваших файлов GCS.

TensorFlow также имеет экспериментальный RunOptions, который позволяет указать тайм-аут для Session.run. Как только эта функция будет готова, это может быть полезно для обеспечения того, чтобы код не блокировался навсегда.

  • Загрузка обученной модели Keras и продолжение обучения
  • Тензорный поток: свертки с различным фильтром для каждого образца в мини-партии
  • Нет модуля с именем __future__
  • Как запустить новый файл Jupyter Notebook, который не является частью предварительно созданного изображения докеров в докере?
  • Невозможно импортировать Tensorflow для GPU в Windows 10
  • Обучение / тестирование 3darray TensorFlow RNN LSTM
  • Где находится папка для установки tensorflow с pip, Mac OSX?
  • Как создать пользовательскую функцию активации только с Python в Tensorflow?
  • Python - лучший язык программирования в мире.