Переобучение начального облака Google застряло на глобальном шаге 0

Я следую за учебниками цветов для переобучения в google cloud ml. Я могу запускать учебник, тренировать, прогнозировать, просто отлично.

Затем я заменил набор данных цветов для собственного тестового набора данных. Оптическое распознавание символов изображения.

введите описание изображения здесь

Мой полный код здесь

Файл Dict для ярлыков

Eval set

Учебный комплект

Запуск из недавней сборки докеров, предоставляемой Google.

`docker run -it -p "127.0.0.1:8080:8080" --entrypoint=/bin/bash gcr.io/cloud-datalab/datalab:local-20161227 

Я могу предварительно обрабатывать файлы и отправлять учебное задание, используя

  # Submit training job. gcloud beta ml jobs submit training "$JOB_ID" \ --module-name trainer.task \ --package-path trainer \ --staging-bucket "$BUCKET" \ --region us-central1 \ -- \ --output_path "${GCS_PATH}/training" \ --eval_data_paths "${GCS_PATH}/preproc/eval*" \ --train_data_paths "${GCS_PATH}/preproc/train*" 

но он никогда не делает его прошлым глобальным шагом 0. Учебник цветов тренировался примерно через ~ 1 час на свободном уровне. Я пропустил обучение до 11 часов. Нет движения.

введите описание изображения здесь

Оглядываясь на stackdriver, ничего не прогрессирует.

введите описание изображения здесь

Я также попробовал крошечный набор данных для игрушки из 20 учебных изображений и 10 изображений eval. Тот же вопрос.

Контейнер GCS выглядит так: введите описание изображения здесь

Возможно, неудивительно, что я не могу представить этот журнал в тензодатчике, и ничего не показывать.

Полный учебный журнал:

 INFO 2017-01-10 17:22:00 +0000 unknown_task Validating job requirements... INFO 2017-01-10 17:22:01 +0000 unknown_task Job creation request has been successfully validated. INFO 2017-01-10 17:22:01 +0000 unknown_task Job MeerkatReader_MeerkatReader_20170110_170701 is queued. INFO 2017-01-10 17:22:07 +0000 unknown_task Waiting for job to be provisioned. INFO 2017-01-10 17:22:07 +0000 unknown_task Waiting for TensorFlow to start. INFO 2017-01-10 17:22:10 +0000 master-replica-0 Running task with arguments: --cluster={"master": ["master-d4f6-0:2222"]} --task={"type": "master", "index": 0} --job={ INFO 2017-01-10 17:22:10 +0000 master-replica-0 "package_uris": ["gs://api-project-773889352370-ml/MeerkatReader_MeerkatReader_20170110_170701/f78d90a60f615a2d108d06557818eb4f82ffa94a/trainer-0.1.tar.gz"], INFO 2017-01-10 17:22:10 +0000 master-replica-0 "python_module": "trainer.task", INFO 2017-01-10 17:22:10 +0000 master-replica-0 "args": ["--output_path", "gs://api-project-773889352370-ml/MeerkatReader/MeerkatReader_MeerkatReader_20170110_170701/training", "--eval_data_paths", "gs://api-project-773889352370-ml/MeerkatReader/MeerkatReader_MeerkatReader_20170110_170701/preproc/eval*", "--train_data_paths", "gs://api-project-773889352370-ml/MeerkatReader/MeerkatReader_MeerkatReader_20170110_170701/preproc/train*"], INFO 2017-01-10 17:22:10 +0000 master-replica-0 "region": "us-central1" INFO 2017-01-10 17:22:10 +0000 master-replica-0 } --beta INFO 2017-01-10 17:22:10 +0000 master-replica-0 Downloading the package: gs://api-project-773889352370-ml/MeerkatReader_MeerkatReader_20170110_170701/f78d90a60f615a2d108d06557818eb4f82ffa94a/trainer-0.1.tar.gz INFO 2017-01-10 17:22:10 +0000 master-replica-0 Running command: gsutil -q cp gs://api-project-773889352370-ml/MeerkatReader_MeerkatReader_20170110_170701/f78d90a60f615a2d108d06557818eb4f82ffa94a/trainer-0.1.tar.gz trainer-0.1.tar.gz INFO 2017-01-10 17:22:12 +0000 master-replica-0 Building wheels for collected packages: trainer INFO 2017-01-10 17:22:12 +0000 master-replica-0 creating '/tmp/tmpSgdSzOpip-wheel-/trainer-0.1-cp27-none-any.whl' and adding '.' to it INFO 2017-01-10 17:22:12 +0000 master-replica-0 adding 'trainer/model.py' INFO 2017-01-10 17:22:12 +0000 master-replica-0 adding 'trainer/util.py' INFO 2017-01-10 17:22:12 +0000 master-replica-0 adding 'trainer/preprocess.py' INFO 2017-01-10 17:22:12 +0000 master-replica-0 adding 'trainer/task.py' INFO 2017-01-10 17:22:12 +0000 master-replica-0 adding 'trainer-0.1.dist-info/metadata.json' INFO 2017-01-10 17:22:12 +0000 master-replica-0 adding 'trainer-0.1.dist-info/WHEEL' INFO 2017-01-10 17:22:12 +0000 master-replica-0 adding 'trainer-0.1.dist-info/METADATA' INFO 2017-01-10 17:22:12 +0000 master-replica-0 Running setup.py bdist_wheel for trainer: finished with status 'done' INFO 2017-01-10 17:22:12 +0000 master-replica-0 Stored in directory: /root/.cache/pip/wheels/e8/0c/c7/b77d64796dbbac82503870c4881d606fa27e63942e07c75f0e INFO 2017-01-10 17:22:12 +0000 master-replica-0 Successfully built trainer INFO 2017-01-10 17:22:13 +0000 master-replica-0 Running command: python -m trainer.task --output_path gs://api-project-773889352370-ml/MeerkatReader/MeerkatReader_MeerkatReader_20170110_170701/training --eval_data_paths gs://api-project-773889352370-ml/MeerkatReader/MeerkatReader_MeerkatReader_20170110_170701/preproc/eval* --train_data_paths gs://api-project-773889352370-ml/MeerkatReader/MeerkatReader_MeerkatReader_20170110_170701/preproc/train* INFO 2017-01-10 17:22:14 +0000 master-replica-0 Starting master/0 INFO 2017-01-10 17:22:14 +0000 master-replica-0 Initialize GrpcChannelCache for job master -> {0 -> localhost:2222} INFO 2017-01-10 17:22:14 +0000 master-replica-0 Started server with target: grpc://localhost:2222 ERROR 2017-01-10 17:22:16 +0000 master-replica-0 device_filters: "/job:ps" INFO 2017-01-10 17:22:19 +0000 master-replica-0 global_step/sec: 0 

Просто повторяю последнюю строку, пока я не убью ее.

Является ли моя ментальная модель для этой службы неправильной? Все предложения приветствуются.

One Solution collect form web for “Переобучение начального облака Google застряло на глобальном шаге 0”

Все выглядит хорошо. Мое подозрение в том, что у вас есть проблемы с вашими данными. В частности, я подозреваю, что TF не может прочитать данные из ваших файлов GCS (они пустые?)? В результате, когда вы вызываете поезд, TF заканчивает блокировку, пытаясь прочитать пакет данных, который он не может сделать.

Я бы предложил добавить заявления о регистрации во время вызова session.run в Trainer.run_training . Это скажет вам, является ли это той линией, где она застревает.

Я также предлагаю проверить размеры ваших файлов GCS.

TensorFlow также имеет экспериментальный RunOptions, который позволяет указать тайм-аут для Session.run. Как только эта функция будет готова, это может быть полезно для обеспечения того, чтобы код не блокировался навсегда.

  • Как определить, использует ли тензорный поток ускорение gpu изнутри оболочки python?
  • Эквивалент Theano.function в Tensorflow
  • Как обернуть Tensorflow Cython и разрешить C ++ называть его?
  • Тензорный поток: сохранение и восстановление сеанса
  • Получение хорошего смешивания со многими входными файлами данных в тензорном потоке
  • Использование среды conda в VS2017
  • TensorFlow ValueError: невозможно передать значение формы (64, 64, 3) для Tensor u'Placeholder: 0 ', которая имеет форму' (?, 64, 64, 3) '
  • Ошибка установки Tensorflow в Windows 7
  • Тензорный поток на GPU
  • Ошибка импорта тензорного потока в простой код python с импортом
  • Ошибка Word2Vec
  •  
    Interesting Posts for Van-Lav

    Разнообразные взгляды, широко используемые сообществом Django?

    Как я могу получить версию, определенную в setup.py (setuptools) в моем пакете?

    Python 2.7 throws ValueError: list.remove (x): x нет в списке

    Scipy: позволяют ли разреженные матрицы поддерживать расширенную индексацию?

    Добавление shebang вызывает Нет такой ошибки файла или каталога при запуске моего скрипта python

    Получить текст из текстового поля в Flask

    Установить Механизм для приема файлов cookie

    Массовое обучение машинам – Python или Java?

    Установить тип содержимого почтового сообщения для ical вложения в «text / calendar»; Метод = ЗАПРОС»

    Добавление режимов конфигурации в Plotly.Py offline – режим

    Получить pid рекурсивных подпроцессов

    numpy.void type – как его использовать?

    Использование Python для подсчета количества рабочих дней в месяц?

    Желательно ли возвращать 404 в вызове API в этом случае?

    Оператор конкатенации + или,

    Python - лучший язык программирования в мире.