Овладение рабочими процессами в области науки о данных с помощью ChatGPT

Овладение рабочими процессами в области науки о данных с использованием ChatGPT

< img src = “//ai.miximages.com/www.kdnuggets.com/wp-content/uploads/chugh_mastering_data_science_workflows_chatgpt_3.png”/>

Data science – это постоянно развивающаяся область, и постоянный приток данных делает его важным случаем для решения сложных проблем с помощью инновационных решений. Одно из таких решений, которое привлекло внимание в последнее время, – это ChatGPT. Эта мощная языковая модель, разработанная OpenAI, показала удивительные возможности понимания и генерации естественного языка.

Хотя ChatGPT в основном используется для разговоров и генерации текста, специалисты по обработке данных могут использовать его потенциал в своих рабочих процессах, чтобы упростить и усовершенствовать свою работу, сделать свои процессы более эффективными и продуктивными.

В этой статье подчеркиваются навыки, которые специалисты по обработке данных могут приобрести, чтобы сделать максимальный использование умений ChatGPT.

ChatGPT в рабочих процессах обработки данных

ChatGPT может быть универсальным помощником, способным генерировать код, объяснения и умозаключения. Эффективное настройка ChatGPT может быть полезна в рабочих процессах по обработке данных и отладке кода. Кроме того, десятки исследовательских техник могут генерировать более точные и познавательные ответы от ChatGPT.

Освоение методик технической подачи

Они из них обычных способов эффективного настройки ChatGPT:

  • Итеративные запросы : включает в себя создание запросов, основанных на предыдущих ответах, способствуя разговорному потоку.
  • Экспериментальные запросы : подобно итеративному и экспериментальному развитию моделей машинного обучения, специалисты по обработке данных также могут экспериментировать с запросами, имеющими различные уровни руководств. Это важный навык для начинающих специалистов по обработке данных, главным образом потому, что ChatGPT склонен предполагать отсутствующую информацию, а не спрашивать о ней. Типичным примером является указание ChatGPT прочитать файл и выполнить некоторую обработку над данными, что может привести к предположению, что входной файл является файлом CSV. Это может быть верным или не верным в зависимости от вашего случая использования. Таким образом, экспериментирование с пошаговыми инструкциями является общепринятой практикой.
  • Обучение с нуля и малое количество образцов : когда модель не видит ни одного примера, но получает инструкции для ответа, такое прямое настроение называется обучением с нуля, в то время как небольшое количество образцов предполагает предоставление нескольких примеров модели научить до формулировки запросов.

Эффективные методики настройки являются необходимыми для извлечения содержательной информации из ChatGPT. Можно исследовать различные методы формулировки ясных и точных инструкций для получения желаемых результатов.

  • Понимание использования разделителей для эффективной структурирования инструкций и запросов является необходимым.
  • Научитесь указывать входные аргументы, необходимые шаги и структуру данных возвращать функцию рабочего процесса по обработке данных в запросы.

Настройка ChatGPT для написания кода и отладки

Оптимизация рабочих процессов обзора кода

Эффективные обзоры кода важны для успеха проектов по обработке данных. Как специалисты по обработке данных, мы можем настроить ChatGPT, чтобы улучшить рабочие процессы обзора кода, следовать стандартам кодирования и эффективно отлаживать код.

Можно создать цепочку мыслей (CoT) для улучшения качества кода. Для справки, CoT – это техника, которая вызывает процесс рассуждения LLM, предоставляя им несколько образцов, явно описывая процесс рассуждения. Затем модель следует аналогичному процессу рассуждения для ответа на запрос, тем самым улучшая производительность модели по задачам, требующим сложного рассуждения.

Объяснение кода и упрощение

Код обработки данных иногда может быть сложным и сложным для неподготовленной аудитории. ChatGPT может объяснить или упростить сложный код, сделав его более читаемым и понятным. Хеширование CoT полезно для объяснения и упрощения кода.

 

Оптимизация кода

 

Оптимизация кода для повышения эффективности является важным аспектом рабочих процессов в области науки о данных. ChatGPT может быть использован для написания эффективного кода и исследования возможностей альтернативных решений.

Эффективные примеры CoT используются для предложения эффективного альтернативного кода вместе с объяснением. Ученые по данным также могут научиться создавать примеры, которые поощряют написание эффективного кода, используя ключевые слова, такие как “алгоритмическая эффективность” или предлагая альтернативные структуры данных.

 

Тестирование и проверка кода

 

Ученые по данным также используют ChatGPT для разработки практических тестов и утверждений, генерации тестов на код и проверки правильности кода.

Примеры “ноль-шот” оказываются очень эффективными при написании утверждений assert для часто используемых функций на Python. Разработка примеров для генерации модульных тестов для проверки блока кода также является хорошим использованием ChatGPT.

 

Проектирование запросов для анализа данных

 

Анализ данных с использованием SQL

 

SQL является фундаментальным инструментом в анализе данных, и ChatGPT может помочь в генерации SQL-запросов для различных задач. Ученые по данным могут изучать создание “ноль-шот” примеров CoT для генерации SQL-запросов для определенных условий выборки данных. 

Кроме того, они также могут разрабатывать примеры для выполнения SQL-команд, выполняющих агрегацию данных.

 

Перевод и манипулирование данными

 

Перевод и манипулирование данных между различными форматами и языками является обычной задачей в науке о данных. Ученые по данным могут использовать ChatGPT, изучив создание примеров сравнительного и условного обучения на несколько примеров, чтобы перевести сложные SQL-запросы в соответствующий код на Python. 

Они также могут применять “ноль-шот” и обучающие примеры для вычисления агрегированных значений для разных полей и эффективной манипуляции данными.

 

Трансформация и изменение данных

 

ChatGPT также может помочь в трансформации и изменении данных, что является частым в анализе данных. Мы можем применить основанные на контексте методы обучения на “ноль-шот” примерах для объединения данных из разных источников. Кроме того, разрабатываются примеры с использованием нескольких примеров для создания матрицы несоответствия или сводных таблиц для изменения формата данных по необходимости. 

 

 

Создание промптов для машинного обучения и рассказов

 

Предварительная обработка данных

 

Мы можем использовать ChatGPT для определения отсутствующих полей и обнаружения выбросов. Эффективные примеры могут также быть разработаны для заполнения отсутствующих данных с использованием средних и медианных значений.

 

Визуализация данных

 

В качестве практиков в области данных, мы можем составлять примеры, основанные на контексте, для генерации кода для создания различных графиков и диаграмм. Через использование ChatGPT также возможна форматирование и аннотирование графиков с соответствующими метками, легендами и заголовками для улучшения представления данных. 

 

 

Инжиниринг признаков

 

Инжиниринг признаков является одним из наиболее востребованных навыков в наборе инструментов ученых по данным. ChatGPT может помочь в генерации осмысленных признаков для моделей машинного обучения, таких как создание признаков, связанных с временем. Общие временные признаки из столбцов даты и времени включают день недели, месяц и год.

Кроме того, общая разработка признаков также может включать биннинг, нормализацию и категоризацию, и здесь ChatGPT может быть полезен.

 

Отчеты для неспециалистов

 

ChatGPT может определить ключевые различия между техническим и неспециальным стилями коммуникации и признать важность настройки коммуникации для конкретных аудиторий. На основе контекста итерационные примеры могут помочь объяснять инсайты науки о данных, используя терминологию и ключевые показатели производительности, подходящие для неспециализированных заинтересованных сторон.

С этим мы завершаем этот пост, обсуждая различные методы подсказок для эффективного использования ChatGPT в рабочих процессах по обработке данных. Этот подробный план показывает, как ChatGPT может быть ценным инструментом для увеличения производительности и эффективности в области программирования, анализа данных, машинного обучения или истории.

[Видхи Чугх](https://vidhi-chugh.medium.com/) – стратег по искусственному интеллекту и руководитель цифровой трансформации, работающий на пересечении продукта, науки и инженерии для создания масштабируемых систем машинного обучения. Она является признанным лидером в области инноваций, автором и международным спикером. Ее миссия – демократизировать машинное обучение и разрушить жаргон, чтобы каждый мог принимать участие в этой трансформации.