Tag: apache spark

Искра поднимает OutOfMemoryError

Когда я запускаю свой код искрового питона, как показано ниже: import pyspark conf = (pyspark.SparkConf() .setMaster("local") .setAppName("My app") .set("spark.executor.memory", "512m")) sc = pyspark.SparkContext(conf = conf) #start the conf data =sc.textFile('/Users/tsangbosco/Downloads/transactions') data = data.flatMap(lambda x:x.split()).take(all) Файл составляет около 20 ГБ, а на моем компьютере 8 ГБ, когда я запускаю программу в автономном режиме, она вызывает OutOfMemoryError: […]

KeyError: «SPARK_HOME» в pyspark

когда я пытаюсь: from pyspark import SparkContext, SparkConf sc=SparkContext() Я получил: KeyError: 'SPARK_HOME' Каково решение?

Шаг карты, который включает подпроцесс с ошибкой канала в PySpark

Моя цель – прочитать двоичные (gpg-зашифрованные) файлы на hdfs, состоящие из данных csv. Мой подход – после этого ответа – заключался в том, чтобы определить функцию Python для чтения и дешифрования файла gpg, дающего каждую строку, и применить эту функцию как flatMap к параллельному списку файлов. По сути, функция Python порождает подпроцесс, который читает файл […]

Pyspark reduceByKey с (ключ, словарь) кортеж

Я застрял в попытке сделать карту-сокращение на databricks с искрами. Я хочу обрабатывать файлы журналов, и я хочу свести к корню (key, dict ()). Однако я всегда получаю сообщение об ошибке. Я не уверен, что это правильный способ сделать это. Я был бы очень рад любому совету. В результате я хочу, чтобы все было отображено […]

Тестирование программ Hive + spark python локально?

Я хотел бы разрабатывать программы с искрами + куст и блок тестировать их локально. Есть ли способ получить улей для запуска в процессе? Или что-то еще, что облегчит модульное тестирование? Я использую python 2.7 на Mac

java.util.HashMap отсутствует в сеансе PySpark

Я работаю с Apache Spark 1.4.0 в Windows 7 x64 с Java 1.8.0_45 x64 и Python 2.7.10 x86 в IPython 3.2.0 Я пытаюсь написать программу на базе DataFrame в ноутбуке IPython, который читает и записывает обратно в базу данных SQL Server. Пока я могу читать данные из базы данных from pyspark.sql import SQLContext sqlContext = […]

Условное объединение / уменьшение пар ключей

У меня была эта проблема в течение некоторого времени, и я думаю, что это связано с тем, что я не понимаю, как использовать combByKey и reduceByKey, поэтому, надеюсь, кто-то сможет это прояснить. Я работаю с последовательностями ДНК, поэтому у меня есть процедура для создания кучи различных версий (вперед, назад и комплимент). У меня есть несколько […]

Включить пакет в локальный режим Spark

Я пишу некоторые модульные тесты для моего кода Spark в python. Мой код зависит от искры-CSV . В производстве я использую spark-submit –packages com.databricks:spark-csv_2.10:1.0.3 чтобы отправить мой скрипт python. Я использую pytest для запуска тестов с помощью Spark в local режиме: conf = SparkConf().setAppName('myapp').setMaster('local[1]') sc = SparkContext(conf=conf) Мой вопрос в том, что поскольку pytest не […]

Как можно запустить модель дерева решений spark mlib в чистом питоне?

Я хочу создать модели (в частности – деревья решений) с использованием искры, а затем применить их с помощью приложения pure python (not pyspark) Похоже, что PMML-экспорт является предназначенным методом, но он еще не поддерживается для древовидных моделей, и я не нашел PMML-библиотеку для python, которая, как представляется, находится в активной разработке

Модуль Pyspark не найден

Я пытаюсь выполнить простую работу Pyspark в Пряжа. Это код: from pyspark import SparkConf, SparkContext conf = (SparkConf() .setMaster("yarn-client") .setAppName("HDFS Filter") .set("spark.executor.memory", "1g")) sc = SparkContext(conf = conf) inputFile = sc.textFile("hdfs://myserver:9000/1436304078054.json.gz").cache() matchTerm = "spark" numMatches = inputFile.filter(lambda line: matchTerm in line).count() print(numMatches, "lines contain", matchTerm) Я не знаю, будет ли код работать, и это не […]

Interesting Posts for Van-Lav

Создавать объект с переменными атрибутами более чистым способом в python

Глобальная загрузка классов или функций для любого файла в приложении в Python

Невозможно изменить имя файла при сохранении цифр matplotlib в системе Mac

Объект 'dict' не может быть вызван

Django: нужен ли ImageField путь к файлу или реальный объект изображения?

AttributeError: объект XPathExpr не имеет атрибута 'add_post_condition'

Разделение столбцов массива numpy легко

Как я могу объединить два списка и отсортировать их в «линейном» времени?

Какие инструменты я могу использовать для просмотра diff двух разделов одного и того же файла?

инициализировать dict с помощью ключей, значения из двух списков

Python сравнивает каждую строку в файле со всеми остальными

Излучающий сигнал PySide вызывает сбой python

Невозможно импортировать MySQLdb в незаменимый модуль

Почему List не добавляет данные словаря в мой список?

Numpy где () на двумерной матрице

Python - лучший язык программирования в мире.