Ошибка BigQuery для большого файла

Я пытаюсь загрузить json-файл в GoogleBigquery, используя скрипт на https://github.com/GoogleCloudPlatform/python-docs-samples/blob/master/bigquery/api/load_data_by_post.py с очень небольшим изменением. я добавил

,chunksize=10*1024*1024, resumable=True)) 

к MediaFileUpload .

Скрипт отлично работает для образца файла с несколькими миллионами записей. Фактический файл составляет около 140 ГБ с примерно 200 000 000 записей. insert_request.execute () всегда терпит неудачу с

 socket.error: `[Errno 32] Broken pipe` 

через полчаса или около того. Как это можно зафиксировать? Каждая строка меньше 1 КБ, поэтому она не должна быть проблемой квоты.

One Solution collect form web for “Ошибка BigQuery для большого файла”

При обработке больших файлов не используются потоковые передачи, а пакетная загрузка: потоковая передача будет легко обрабатывать до 100 000 строк в секунду. Это очень хорошо для потоковой передачи, но не для загрузки больших файлов.

Образец кода, связанный с этим, делает правильную вещь (пакет вместо потоковой передачи), поэтому мы видим другую проблему: этот примерный код пытается загрузить все эти данные прямо в BigQuery, но загрузка через POST-часть не удалась.

Решение. Вместо того, чтобы загружать большие куски данных через POST, сначала выполните их в Google Cloud Storage, а затем скажите BigQuery прочитать файлы из GCS.

Обновление : беседуя с командой инженеров, POST должен работать, если вы попробуете меньший chunksize .

  • Как я могу использовать python для определения конкретного значения json по ключу?
  • Как передать поля модели объекту JsonResponse
  • Элементы в объекте JSON не работают, используя «json.dumps»?
  • Как извлечь определенные несколько значений в JSON с помощью python?
  • В Django loaddata он выдает ошибки для формата json, но правильно работает для формата yaml. Может ли кто-нибудь сказать мне, почему?
  • Как получить объект JSON в Python (флеш-фреймворк)
  • Firebase с использованием числа с плавающей запятой в качестве ключа
  • Минимизировать код JavaScript, содержащий выражения Jinja2 с компилятором Closure
  • Добавление атрибутов сеанса в Python для навыков Alexa
  • отправка NaN в json
  • Как сбрасывать словарь Python в JSON, когда ключи являются нетривиальными объектами?
  •  
    Interesting Posts for Van-Lav

    Как динамически добавлять / удалять периодические задания на сельдерей (celerybeat)

    Как получить подробную информацию о устройстве / разделе из пути к файлу в Linux (например, UUID, серийный номер жесткого диска и т. Д.)

    Пакетное приложение PyInstaller отлично работает в режиме консоли, сбой в режиме окна

    Как я могу обрезать комментарии и строки doc из исходного кода python?

    Как я могу избежать строки с экранированной обратной косой чертой в python?

    Рисование полупрозрачных полигонов в PIL

    Преобразование png в jpeg с помощью Pillow в python

    чтение csv-файлов в scipy / numpy в Python

    Python – как конвертировать Unicode имя файла в CP437?

    Ошибка атрибута Django: объект «int» не имеет атрибута «essay_question» – приложение для викторины Django

    Базовая математика Python

    как реализовать это в кнопке django – back – сохранить данные в запросе

    Проверьте, установлена ​​ли только одна переменная в списке переменных.

    lxml xml разбор с тегами html внутри тегов xml

    Определение функции __getattr__ и __getitem__ в функции не влияет

    Python - лучший язык программирования в мире.