От CSV до полного аналитического отчета с помощью ChatGPT за 5 простых шагов

Превращаем CSV в полный аналитический отчет 5 простых шагов с помощью ChatGPT

 

Вне зависимости от того, в каком бизнесе вы находитесь, умение анализировать данные становится более важным, чем когда-либо в эру данных. Анализ данных позволяет предприятиям оставаться конкурентоспособными и принимать лучшие решения.

Важность анализа данных заставляет каждого человека знать, как проводить анализ. Однако порой на анализ данных требуется слишком много времени. Вот почему мы можем полагаться на ChatGPT для создания полного отчета на основе наших данных.

В этой статье мы рассмотрим пять простых шагов, чтобы создать полные аналитические отчеты на основе вашего CSV-файла. Эти пять шагов включают:

Шаг 1: Импорт CSV-файла

Шаг 2: Сводка и предварительная обработка данных

Шаг 3: Анализ данных

Шаг 4: Визуализация данных

Шаг 5: Генерация отчета

В качестве предварительного условия статья предполагает, что читатель подписан на ChatGPT Plus. Итак, приступим.

 

Импорт CSV-файла

 

Первый шаг – подготовить CSV-файл, который вы хотите проанализировать и создать отчет. Этот файл может быть получен из любого надежного источника, но в этой статье мы будем использовать набор данных Telecom Churn с сайта Kaggle.

Обязательно убедитесь, что данные структурированы, организованы и имеют ясные заголовки. Если у вас есть определенная цель, которую вы хотите проанализировать, не забудьте включить эти данные в файл. В нашем примере мы будем анализировать столбец churn.

Когда данные готовы, прикрепите их к ChatGPT и позвольте модели сделать свою работу.

 

Сводка и предварительная обработка данных

 

Следующий шаг – получить сводку данных из нашего CSV-файла и предварительно обработать их. Введите следующую подсказку при загрузке данных.

Предоставьте сводку данных для этого файла и выполните соответствующую обработку данных для набора данных.

 

Вышеуказанная подсказка дает следующие результаты:

Вот сводка вашего набора данных:

Количество строк: 3333

Количество столбцов: 11

Имена столбцов:

Churn

AccountWeeks

ContractRenewal

DataPlan

DataUsage

CustServCalls

DayMins

DayCalls

MonthlyCharge

OverageFee

RoamMins

Типы данных:

Целочисленные: Churn, AccountWeeks, ContractRenewal, DataPlan, CustServCalls, DayCalls

С плавающей точкой: DataUsage, DayMins, MonthlyCharge, OverageFee, RoamMins

Отсутствующие значения: В любом из столбцов отсутствуют пропущенные значения.

ChatGPT легко считывает данные и может предоставить предоставленный набор данных. Следующий результат – предварительная обработка данных с помощью ChatGPT.

Поскольку в наборе данных отсутствуют пропущенные значения, основное внимание при очистке и предварительной обработке данных будет уделено:

  • Проверке наличия выбросов или аномалий в данных.
  • Нормализации или стандартизации данных при необходимости, особенно для столбцов с непрерывными числовыми значениями.
  • Преобразованию категориальных данных в формат, пригодный для анализа, если необходимо.

Продолжим с этими шагами.   

Диаграммы ящика с усами предоставляют визуальный обзор потенциальных выбросов в каждом числовом столбце вашего набора данных. Вот некоторые наблюдения:

  • AccountWeeks, CustServCalls, DayCalls: Эти столбцы показывают относительно нормальное распределение с некоторыми выбросами.
  • DataUsage, DayMins, MonthlyCharge, OverageFee, RoamMins: Эти столбцы также содержат выбросы, но они кажутся находящимися в разумном диапазоне, учитывая характер данных.
  • Churn, ContractRenewal, DataPlan: Поскольку это категориальные/бинарные данные, в этих столбцах отсутствуют традиционные выбросы.

Исходя из этой информации, следующими шагами в очистке и предварительной обработке данных могут быть:

  • Обработка выбросов: Мы можем решить, удалять ли, ограничивать или иным образом обрабатывать выбросы в зависимости от ваших конкретных аналитических потребностей и знаний в области.
  • Трансформация данных: При необходимости мы можем нормализовывать или стандартизировать столбцы, такие как DayMins, MonthlyCharge и т. д., особенно если вы планируете использовать алгоритмы, чувствительные к масштабу данных.
  • Кодирование категориальных данных: Преобразование категориальных данных в формат, подходящий для анализа, если требуется такое преобразование.

Вы можете позволить ChatGPT выполнить дополнительные шаги по очистке и предварительной обработке данных или оставить их без изменений. В этом примере мы продолжим с следующими шагами.

 

Анализ данных

 

Затем мы выполним анализ данных с помощью ChatGPT. Анализ данных зависит от того, чего вы хотите достичь. В нашем случае мы хотим провести анализ данных из точки зрения оттока.

Мы используем следующий промпт для выполнения анализа данных с помощью ChatGPT для вышеприведенного случая.

Выполните анализ данных на основе приведенных выше данных с учетом данных об оттоке.

 

Анализ данных можно увидеть в следующем результате.

Для проведения анализа данных относительно данных об оттоке мы сосредоточимся на понимании того, как различные факторы связаны с оттоком клиентов. Отток, являясь бинарной переменной (0 – отсутствие оттока, 1 – отток), обычно анализируется с помощью классификационных методов и изучением связей с другими переменными. Вот план:

  1. Анализ корреляции: Вначале мы рассмотрим, как каждая числовая характеристика коррелирует с оттоком. Это дает нам первоначальное представление о том, какие факторы могут более тесно связаны с оттоком.
  1. Статистические тесты: Для категориальных переменных, таких как ContractRenewal и DataPlan, мы можем использовать статистические тесты, чтобы увидеть, есть ли значимые различия в уровне оттока в разных категориях.
  1. Визуальный анализ: Мы создадим некоторые визуализации для дальнейшего изучения этих связей. Включая сравнение уровней оттока в различных группах и построение ключевых переменных по отношению к оттоку.
  1. Статистика сводных данных: Мы предоставим статистическую информацию по отличным группам на основе статуса оттока, чтобы увидеть, есть ли заметные различия в средних значениях или распределениях.

Начнем с анализа корреляции и затем перейдем к следующим шагам.

Анализ корреляции с оттоком

Корреляция различных переменных с оттоком следующая (от сильнейшей негативной до сильнейшей положительной корреляции):

Негативная корреляция:

  • ContractRenewal: Сильнейшая отрицательная корреляция. Указывает на то, что клиенты, не продлевающие свои контракты, более склонны к оттоку.
  • DataPlan: Клиенты без плана данных незначительно более склонны к оттоку.
  • DataUsage: Более высокое использование данных слегка снижает вероятность оттока.

Положительная корреляция:

  • AccountWeeks, DayCalls: Очень слабая положительная корреляция, что говорит о минимальном влиянии на отток.
  • RoamMins: Небольшое увеличение вероятности оттока с ростом количества минут “роуминга”.
  • MonthlyCharge: Незначительно более высокие уровни оттока с увеличением ежемесячной платы.
  • OverageFee: Более высокие платы за превышение лимита умеренно коррелируют с увеличением оттока.
  • DayMins: Более высокое количество ежедневных минут умеренно коррелирует с увеличением оттока.
  • CustServCalls: Сильная положительная корреляция. Большее количество обращений в службу поддержки связано со стабильно высокими уровнями оттока.

Исходя из этих корреляций, кажется, что факторы, такие как продление контракта, звонки в службу поддержки, ежедневные минуты и платы за превышение лимита, более тесно связаны с оттоком. Мы можем более детально изучить эти факторы с помощью визуального анализа и статистических тестов, особенно для категориальных переменных, таких как ContractRenewal и DataPlan.

Визуальный анализ

  

Визуализации предлагают ценные представления о взаимосвязи между различными переменными и оттоком:

Отток по ContractRenewal и DataPlan:

  • ContractRenewal: Очевидна значительная разница в уровне оттока. Клиенты, не продлившие свои контракты, проявляют более высокую склонность к оттоку.
  • DataPlan: Наблюдается заметная разница в уровнях оттока в зависимости от наличия у клиентов плана данных, при отсутствии которого отток выше.

Числовые переменные (CustServCalls, DayMins, MonthlyCharge, OverageFee) по Churn:

  • CustServCalls: Клиенты, у которых больше звонков в службу поддержки, склонны к оттоку.
  • DayMins: Большее количество дневных минут связано с большей вероятностью оттока.
  • MonthlyCharge: Высокие ежемесячные платежи коррелируют с повышенной скоростью оттока.
  • OverageFee: Более высокие дополнительные сборы также связаны с увеличенным оттоком.

Выводы из анализа

  • Статус продления контракта и наличие плана передачи данных являются значимыми факторами в оттоке клиентов.
  • Высокое использование (в терминах дневных минут) и высокие расходы (ежемесячные платежи и дополнительные сборы) связаны с более высокой скоростью оттока.
  • Большее количество звонков в службу поддержки является сильным показателем потенциального оттока.

Следующие шаги

Исходя из этих выводов, могут быть разработаны целевые стратегии по снижению оттока, такие как улучшение обслуживания клиентов, пересмотр стратегии ценообразования или предложение стимулов для продления контракта и подписки на план передачи данных.

С помощью одной подсказки можно увидеть, насколько хорошо ChatGPT может дать нам полный анализ данных и составить выводы из них. Вы можете заготовить цели анализа и начать с этого.

 

Визуализация данных

 

Визуализация данных – поддерживающая деятельность для улучшения анализа данных и общего отчета. Благодаря визуализации мы можем иметь более полный отчет для понимания наших данных.

С помощью следующей подсказки мы можем выполнить визуализацию данных с помощью ChatGPT.

Пожалуйста, выполните визуализацию данных из анализа, чтобы лучше объяснить данные.

 

Для более полного понимания результатов анализа данных я создам ряд визуализаций, которые наглядно представят основные результаты, связанные с оттоком клиентов. Эти визуализации будут включать в себя:

  1. Столбчатые диаграммы для категориальных переменных:
  • Сравнение скоростей оттока для клиентов с продлением контракта и без него.
  • Сравнение скоростей оттока для клиентов с планом передачи данных и без него.
  • Ящиковые диаграммы для важных числовых переменных:
  1. Звонки в службу поддержки vs Отток.
  • Дневные минуты vs Отток.
  • Ежемесячные платежи vs Отток.
  • Дополнительные сборы vs Отток.
  1. Тепловая карта корреляции:

Для визуализации корреляции всех переменных с оттоком.

  

Визуализация покажет все важные графики, отражающие весь набор данных. Мы можем запросить более подробные описания для каждого графика, которые вы можете попробовать независимо.

 

Создание отчета

 

Последний шаг – создание отчета на основе предыдущих шагов. К сожалению, ChatGPT может не уловить все описания и выводы из анализа данных, но мы все же можем получить простую версию отчета.

Используйте следующую подсказку для создания отчета в формате PDF на основе предыдущего анализа.

Пожалуйста, предоставьте мне pdf-отчет с первого шага до последнего.

 

Вы получите результат в виде ссылки на PDF-файл с покрытием вашего предыдущего анализа. Попробуйте изменить шаги, если считаете, что результат недостаточен или если есть то, что вы хотите изменить.

 

Заключение

 

Анализ данных – это деятельность, которую каждый должен знать, поскольку это одно из наиболее востребованных навыков в настоящей эпохе. Однако изучение методов анализа данных может занять много времени. С помощью ChatGPT мы можем минимизировать все это время.

В этой статье мы обсудили, как создать полный аналитический отчет из CSV-файлов в 5 шагов. ChatGPT предоставляет пользователям полный цикл работы с данными, начиная с импорта файла и заканчивая созданием отчета.

[Cornellius Yudha Wijaya](https://www.linkedin.com/in/cornellius-yudha-wijaya/) является заместителем менеджера по научной работе и автором данных. В свободное время, работая на полной ставке в Allianz Indonesia, он любит поделиться советами по использованию Python и работой с данными через социальные сети и СМИ.