Оптимизация аналитики данных интеграция GitHub Copilot в Databricks

Улучшение аналитики данных интеграция GitHub Copilot в Databricks

 

Введение

 

GitHub Copilot – это помощник по автозавершению кода, работающий на основе искусственного интеллекта, разработанный GitHub в сотрудничестве с OpenAI на основе модели ChatGPT. Он предназначен для помощи разработчикам в ускорении процесса кодирования и минимизации ошибок. Основная модель обучается на комбинации лицензионного кода из собственных репозиториев GitHub и общедоступного кода, что дает ей широкое понимание программных парадигм.

С другой стороны, Databricks – это открытая аналитическая и облачная платформа, основанная создателями Apache Spark, которая позволяет организациям создавать безупречные аналитические инструменты и конвейеры машинного обучения, ускоряя тем самым процесс инноваций. Кроме того, она способствует совместной работе пользователей.

Интеграция GitHub Copilot с Databricks позволяет инженерам по аналитике данных и машинному обучению эффективно и быстро разворачивать решения. Эта интеграция облегчает разработку кода, улучшает его качество и стандартизацию, повышает эффективность работы между языками программирования, ускоряет разработку прототипов и помогает в документировании, повышая тем самым производительность и эффективность инженеров.

Требования для интеграции GitHub Copilot и Databricks:

Учетная запись Databricks настроена.

Установлен GitHub Copilot.

Загружена и установлена Visual Studio Code

 

Шаги для интеграции

 

Установите плагин Databricks в Магазине плагинов Visual Studio Code.

  

Настройте плагин Databricks в Visual Studio Code. Если вы уже использовали Databricks CLI, то он уже настроен локально в файле databrickscfg. В противном случае создайте следующее содержимое в файле ~/.databrickscfg.

[DEFAULT]host = https://xxxtoken = <token>jobs-api-version = 2.0

 

Щелкните “Настроить Databricks”, затем выберите первый вариант из выпадающего списка, который отображает имя хоста, указанное на предыдущем шаге, и продолжайте с профилем “DEFAULT”.

  

После завершения настройки устанавливается соединение Databricks с Visual Studio Code. Когда вы нажимаете на плагин Databricks, вы видите данные о рабочем пространстве и конфигурации кластера.

Как только пользователь завершает настройку учетной записи GitHub Copilot, убедитесь, что у вас есть доступ к GitHub Copilot. Установите GitHub Copilot и плагины GitHub Copilot Chat в VSCode через Магазин.

  

После установки плагина GitHub Copilot и плагинов Copilot Chat пользователю будет предложено войти в GitHub Copilot через среду Visual Studio. Если это не происходит автоматически, щелкните значок колокольчика в нижней панели среды Visual Studio Code.

  

Теперь наступило время работы с GitHub Copilot

 

Разработка конвейера инженерии данных

 

Инженеры данных могут использовать GitHub Copilot для написания конвейеров инженерии данных быстро и легко, включая документацию. Ниже приведены шаги для создания простого конвейера инженерии данных с использованием методов подсказки.

Чтение файлов из бакета S3 с помощью Python и фреймворка Spark.

  

Запись данных в S3-ведро с помощью Python и фреймворка Spark

  

Выполнение функций через главный метод: представлено также в приглашении и результате выполнения кода

 

 

Преимущества использования GitHub Copilot для инженерии данных и машинного обучения в Databricks

 

  • Хороший инструмент для AI-совместного программирования для быстрых разумных предложений и предоставления шаблонного кода.
  • Первоклассные предложения по оптимизации кода и времени выполнения.
  • Лучшая документация и ASCII-представление для логических шагов.
  • Более быстрая реализация конвейера данных с минимальными ошибками.
  • Подробное объяснение существующей простой/сложной функциональности и предложение интеллектуальных техник рефакторинга кода.

 

Памятка

 

  • Открывает текстовую/поисковую панель Co-pilot, в которую вы можете вводить свои запросы.

     Windows: [Cltr] + [I] 

    Mac: Command + [I]

  • Открывает отдельное окно справа с десятью лучшими предложениями кода.

    Windows: [Cltr] + [Enter]

    Mac: [control] + [return]

  

  • Открывает отдельное окно чата Copilot слева.

    Windows: [Cltr] + [Alt] + [I]

    Mac: [Control] + [Command] + [I]

  • Отклонить встроенное предложение.

    Windows/Mac: Esc

  • Принять предложение.

    Windows/Mac: Tab

  • Ссылка на предыдущие предложения.

    Windows: [Alt] + [

    Mac: [option] + [

  • Проверить следующее предложение

    Windows: [Alt] + ]

    Mac: [option] + ]

 

Вывод

 

Интеграция инструментов AI-совместного программирования с интегрированными средами разработки помогает разработчикам ускорить разработку с предложениями кода в режиме реального времени, снижая время, затрачиваемое на ссылку на документацию для шаблонного кода и синтаксиса, и позволяя разработчикам сосредоточиться на инновациях и решении бизнес-задач.

 

Дополнительные ресурсы

 

  

[Naresh Vurukonda](http://www.linkedin.com/in/naresh-vurukonda-a23861124) – главный архитектор с более чем 10-летним опытом работы по созданию проектов по инженерии данных и машинному обучению в организациях здравоохранения, науки о жизни и медиа-сети.