Интеграция VSCode с Databricks для создания и запуска инженерных конвейеров и моделей обработки данных
Совмещение VSCode и Databricks создание и запуск инженерных конвейеров и обработка данных в моделях
Databricks – это платформа, основанная на облачных вычислениях, разработанная для упрощения процесса создания трубопроводов для обработки данных и разработки моделей машинного обучения. Она предлагает совместную рабочую среду, которая позволяет пользователям легко работать с данными, масштабировать их обработку и быстро получать инсайты с использованием машинного обучения и продвинутой аналитики.
С другой стороны, Visual Studio Code (VSCode) – это бесплатный редактор с открытым исходным кодом от Microsoft, загруженный расширениями для практически каждого языка программирования и фреймворка, что делает его любимым среди разработчиков для написания и отладки кода.
Интеграция Databricks с VSCode создает единое окружение для разработки, тестирования и развертывания трубопроводов для обработки данных и моделей машинного обучения. Этот синергетический эффект позволяет разработчикам и инженерам данных использовать мощную вычислительную мощность кластеров Databricks, наслаждаясь гибкостью и простотой использования, предлагаемой VSCode.
Предварительные требования для интеграции
Перед началом интеграции пользователь должен выполнить следующие шаги:
- Сейчас, почему нам следует заботиться о Системах Рекомендаций…? ft. Мягкое введение в Томпсона Сэмплинг
- «Использование LLM-моделей для создания выполненных графов рекомендаций»
- 5 способов, которыми вы можете использовать ChatGPT Vision для анализа данных
- Databricks: Следуйте этой ссылке, чтобы получить пробную версию.
- Visual Studio: Скачайте версию Visual Studio Code для Mac или Windows на ваш компьютер.
- GitHub/GitLab: Следуйте этой ссылке, чтобы получить пробную версию GitLab и установить Git на локальную машину.
Шаги для интеграции
-
Создайте токен Databricks в настройках пользователя > Разработчики > Токены доступа после настройки Databricks с необходимыми шагами.
-
Установите плагин Databricks в маркетплейс VSCode.
-
Настройте плагин Databricks в VSCode. Если вы ранее использовали командную строку Databricks, то она уже настроена для вас локально.
- Создайте следующие содержимое в файле ~/.databrickscfg.
- Нажмите на опцию “Настроить Databricks”.
- Выберите первую опцию из выпадающего списка, в которой отображается первоначально настроенный хост, затем продолжите с профилем “DEFAULT”.
- Нажмите на маленькую шестеренку справа от “Кластер” для настройки кластера. Выберите подходящий кластер.
- Нажмите на маленькую шестеренку справа от “Пункт назначения синхронизации” для настройки рабочей области с локальной средой в репозитории Databricks. Если вы используете репозитории Databricks, синхронизируйте наши локальные файлы со своей личной рабочей областью в репозиториях Databricks. Нажмите кнопку “Начать синхронизацию”. Если вы не хотите использовать репозитории Databricks, вы можете пропустить этот шаг.
- Перейдите в репозитории Databricks; файлы будут автоматически скопированы в Databricks.
- Запустите код, используя кластер Databricks локально. В правом верхнем углу есть кнопка с надписью “Запустить файл как рабочий поток в Databricks”.
- После завершения выполнения задания Databricks, будет выполнена ваша записная книжка. Вы можете увидеть вывод и ссылки на конкретную активность выполнения.
Часто задаваемые вопросы и устранение неполадок
Синхронизация между моей локальной средой и репозиторием Databricks работает неправильно. Как это исправить?
Убедитесь, что плагин Databricks в VSCode обновлен до последней версии. Если у вас все еще возникают проблемы, обратитесь к официальной документации Databricks для устранения неполадок.
Могу ли я использовать другие среды разработки (IDEs) вместо VSCode для интеграции с Databricks?
Да, Databricks может использоваться с другими популярными IDEs, такими как IntelliJ IDEA, PyCharm и т. д. Шаги интеграции могут отличаться, поэтому рекомендуется обратиться к документации соответствующей IDE для интеграции с Databricks.
Советы по устранению неполадок
Проблемы с синхронизацией:
- Убедитесь, что ваше рабочее пространство Databricks и VSCode настроены правильно в соответствии с инструкциями, предоставленными в статье.
- Проверьте наличие обновлений плагина Databricks в VSCode, так как устаревшие версии могут вызывать проблемы с синхронизацией.