Как сохранить искру RDD в формате gzip через pyspark
Поэтому я сохраняю искровое RDD в ведро S3, используя следующий код. Есть ли способ сжимать (в формате gz) и сохранять вместо сохранения в виде текстового файла.
help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help")
- Фильтр, основанный на другом RDD в Spark
- Группа PySparkByKey возвращает pyspark.resultiterable.ResultIterable
- ImportError: нет модуля с именем numpy для искровых работников
- В чем разница между spark-submit и pyspark?
- загрузить внешние библиотеки внутри кода pyspark
Метод saveAsTextFile
принимает необязательный аргумент, который указывает класс сжатия кодека:
help_data.repartition(5).saveAsTextFile( path="s3://help-test/logs/help", compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec" )
- Когда вы планируете с помощью Bokeh, как вы автоматически переключаете цветную палитру?
- python, используя __init__ vs, просто определяя переменные в классе – любая разница?
- Объединение искр нескольких RDD
- Каковы преобразования Spark, вызывающие Shuffle?
- Понимание treeReduce () в Spark
- pyspark использует одну задачу для mapPartitions при преобразовании rdd в dataframe
- Как Apache искра обрабатывает многопоточные проблемы python?
- OutOfMemoryError при использовании PySpark для чтения файлов в локальном режиме
- Преобразование GraphFrames ShortestPath Map в строки DataFrame в PySpark
- Как преобразовать DataFrame в обычный RDD в pyspark?
- должен построить Искра с улей (искра 1.5.0)