Оптимизация аналитики данных интеграция GitHub Copilot в Databricks
Улучшение аналитики данных интеграция GitHub Copilot в Databricks
Введение
GitHub Copilot – это помощник по автозавершению кода, работающий на основе искусственного интеллекта, разработанный GitHub в сотрудничестве с OpenAI на основе модели ChatGPT. Он предназначен для помощи разработчикам в ускорении процесса кодирования и минимизации ошибок. Основная модель обучается на комбинации лицензионного кода из собственных репозиториев GitHub и общедоступного кода, что дает ей широкое понимание программных парадигм.
С другой стороны, Databricks – это открытая аналитическая и облачная платформа, основанная создателями Apache Spark, которая позволяет организациям создавать безупречные аналитические инструменты и конвейеры машинного обучения, ускоряя тем самым процесс инноваций. Кроме того, она способствует совместной работе пользователей.
- 7 важных проверок качества данных с помощью Pandas
- «Активная роль ИИ в противодействии коррупции в правительстве»
- Подробное руководство по разделению выборки на обучающую, тестовую и проверочную в 2023 году.
Интеграция GitHub Copilot с Databricks позволяет инженерам по аналитике данных и машинному обучению эффективно и быстро разворачивать решения. Эта интеграция облегчает разработку кода, улучшает его качество и стандартизацию, повышает эффективность работы между языками программирования, ускоряет разработку прототипов и помогает в документировании, повышая тем самым производительность и эффективность инженеров.
Требования для интеграции GitHub Copilot и Databricks:
Учетная запись Databricks настроена.
Установлен GitHub Copilot.
Загружена и установлена Visual Studio Code.
Шаги для интеграции
Установите плагин Databricks в Магазине плагинов Visual Studio Code.
Настройте плагин Databricks в Visual Studio Code. Если вы уже использовали Databricks CLI, то он уже настроен локально в файле databrickscfg. В противном случае создайте следующее содержимое в файле ~/.databrickscfg.
[DEFAULT]host = https://xxxtoken = <token>jobs-api-version = 2.0
Щелкните “Настроить Databricks”, затем выберите первый вариант из выпадающего списка, который отображает имя хоста, указанное на предыдущем шаге, и продолжайте с профилем “DEFAULT”.
После завершения настройки устанавливается соединение Databricks с Visual Studio Code. Когда вы нажимаете на плагин Databricks, вы видите данные о рабочем пространстве и конфигурации кластера.
Как только пользователь завершает настройку учетной записи GitHub Copilot, убедитесь, что у вас есть доступ к GitHub Copilot. Установите GitHub Copilot и плагины GitHub Copilot Chat в VSCode через Магазин.
После установки плагина GitHub Copilot и плагинов Copilot Chat пользователю будет предложено войти в GitHub Copilot через среду Visual Studio. Если это не происходит автоматически, щелкните значок колокольчика в нижней панели среды Visual Studio Code.
Теперь наступило время работы с GitHub Copilot
Разработка конвейера инженерии данных
Инженеры данных могут использовать GitHub Copilot для написания конвейеров инженерии данных быстро и легко, включая документацию. Ниже приведены шаги для создания простого конвейера инженерии данных с использованием методов подсказки.
Чтение файлов из бакета S3 с помощью Python и фреймворка Spark.
Запись данных в S3-ведро с помощью Python и фреймворка Spark
Выполнение функций через главный метод: представлено также в приглашении и результате выполнения кода
Преимущества использования GitHub Copilot для инженерии данных и машинного обучения в Databricks
- Хороший инструмент для AI-совместного программирования для быстрых разумных предложений и предоставления шаблонного кода.
- Первоклассные предложения по оптимизации кода и времени выполнения.
- Лучшая документация и ASCII-представление для логических шагов.
- Более быстрая реализация конвейера данных с минимальными ошибками.
- Подробное объяснение существующей простой/сложной функциональности и предложение интеллектуальных техник рефакторинга кода.
Памятка
-
Открывает текстовую/поисковую панель Co-pilot, в которую вы можете вводить свои запросы.
Windows: [Cltr] + [I]
Mac: Command + [I]
-
Открывает отдельное окно справа с десятью лучшими предложениями кода.
Windows: [Cltr] + [Enter]
Mac: [control] + [return]
-
Открывает отдельное окно чата Copilot слева.
Windows: [Cltr] + [Alt] + [I]
Mac: [Control] + [Command] + [I]
-
Отклонить встроенное предложение.
Windows/Mac: Esc
-
Принять предложение.
Windows/Mac: Tab
-
Ссылка на предыдущие предложения.
Windows: [Alt] + [
Mac: [option] + [
-
Проверить следующее предложение
Windows: [Alt] + ]
Mac: [option] + ]
Вывод
Интеграция инструментов AI-совместного программирования с интегрированными средами разработки помогает разработчикам ускорить разработку с предложениями кода в режиме реального времени, снижая время, затрачиваемое на ссылку на документацию для шаблонного кода и синтаксиса, и позволяя разработчикам сосредоточиться на инновациях и решении бизнес-задач.
Дополнительные ресурсы
- https://app.pluralsight.com/library/courses/getting-started-prompt-engineering-generative-ai/table-of-contents
- https://docs.github.com/en/copilot/quickstart
[Naresh Vurukonda](http://www.linkedin.com/in/naresh-vurukonda-a23861124) – главный архитектор с более чем 10-летним опытом работы по созданию проектов по инженерии данных и машинному обучению в организациях здравоохранения, науки о жизни и медиа-сети.