Python в Excel Это изменит науку о данных навсегда

Python в Excel - изменение науки о данных навсегда

 

В качестве работающего в индустрии специалиста по обработке данных, прошедший год ощущался как американские горки новых технологических прорывов и инноваций в области искусственного интеллекта.

Инструменты, такие как ChatGPT, Notable, Pandas AI и Code Interpreter, значительно сэкономили мне время при выполнении задач, таких как написание, исследование, программирование и анализ данных.

И когда я подумал, что лучше уже не бывает, Microsoft и Anaconda объявили о интеграции Python в Excel!

Теперь вы можете писать код на Python для анализа данных, создания моделей машинного обучения и создания визуализаций непосредственно в таблицах Excel.

 

Итак, почему такой ажиотаж вокруг интеграции Python и Excel?

 

Возможность писать код на Python внутри Excel откроет новые возможности для специалистов по обработке данных и аналитиков.

Когда я получил свою первую работу в области обработки данных, я предполагал, что буду выполнять большую часть работы в Jupyter Notebook. К моему удивлению, в первый день работы мне пришлось научиться использовать Excel, поскольку руководство, заинтересованные стороны и клиенты предпочитали интерпретировать результаты из таблиц.

Фактически, я даже создавал панели инструментов Tableau в прошлом, чтобы представить результаты клиентам, но в конечном итоге приходилось перестраивать диаграммы в Excel, поскольку они были более знакомы с этой платформой.

И это не уникально для моей организации. К 2023 году более миллиона компаний и 1,5 миллиарда человек по всему миру используют Excel.

Многие специалисты по данным, такие как я, постоянно переключаются между средами разработки на Python и таблицами Excel. Мы используем первое для создания моделей машинного обучения и анализа данных, а второе для представления результатов.

Интеграция Python и Excel поможет специалистам по обработке данных и аналитикам оптимизировать рабочий процесс, позволяя выполнять анализ данных, моделирование и презентацию в рамках одной платформы.

Все еще не убедились?

Давайте рассмотрим некоторые потенциальные сценарии использования этой комбинации.

 

Способы использования Python в Excel для специалистов по обработке данных

 

Вот несколько способов, которыми специалисты по обработке данных могут объединить функциональность таблиц с обширным набором библиотек Python:

 

1. Обработка данных

 

Если есть одна часть моей работы, которую я с радостью бы аутсорсил, это подготовка данных. Это утомительная задача, которая становится крайне времязатратной при использовании встроенных функций Excel.

С помощью новой интеграции Python и Excel пользователи теперь могут импортировать библиотеки, такие как Pandas, непосредственно в Excel и выполнять расширенную фильтрацию и агрегацию данных прямо в таблицах Excel.

Просто введите “=PY” в ячейку таблицы и выделите данные, которые вы хотите проанализировать с помощью Python, и для вас будет создан объект dataframe Pandas. Вы можете продолжить группировку и манипулирование этими данными, как в Jupyter Notebook.

Вот пример того, как можно создать объект dataframe Pandas в Excel:

 

 

2. Машинное обучение

 

Хотя Excel предлагает базовые инструменты, такие как линейная регрессия и подгонка тренда на графиках, большинство сценариев использования машинного обучения требуют более сложных методов моделирования, выходящих за пределы встроенных возможностей Excel.

С помощью интеграции Python и Excel пользователи теперь могут создавать и обучать сложные статистические модели в Excel с использованием библиотеки Scikit-Learn. Результаты моделирования можно визуализировать и представить в Excel, сокращая разрыв между моделированием и принятием решений в рамках одной платформы.

Вот изображение, демонстрирующее, насколько легко создать классификатор на основе дерева решений в Excel с помощью Python:

 

 

3. Анализ данных

 

Процесс анализа данных в Excel может быть трудоемким – при работе с несколькими файлами одновременно пользователю нужно копировать и вставлять данные вручную, перетаскивать формулы по ячейкам и комбинировать данные вручную.

Например, если у меня есть пять листов ежемесячных данных о продажах, которые выглядят так:

   

Если я хочу найти продукты с более чем 100 проданными единицами за месяц, мне сначала придется вручную скопировать данные со всех листов и вставить их под данными на первом листе. Затем мне придется изменить формат даты и создать сводную таблицу.

Наконец, мне нужно будет добавить фильтр, чтобы найти продукты, соответствующие моим критериям.

Каждый раз, когда у меня появляются новые данные о продажах в другом файле или листе, мне нужно вручную копировать и вставлять их.

Этот процесс становится все сложнее и подвержен ошибкам с увеличением объема данных.

Вместо этого вся аналитика может быть оптимизирована в Python с помощью следующего кода:

# 1. Объединение данных
df_merged = pd.concat([df_jan, df_feb], ignore_index=True)

# 2. Преобразование формата даты
df_merged['Date'] = pd.to_datetime(df_merged['Date']).dt.strftime('%Y-%m-%d')

# 3. Вычисление общего количества проданных единиц для каждого продукта
grouped_data = df_merged.groupby('Product').agg({'Units Sold': 'sum'}).reset_index()

# 4. Определение продуктов, которые продали более 100 единиц
products_over_100 = grouped_data[grouped_data['Units Sold'] > 100]

products_over_100

 

Каждый раз, когда поступают новые данные, мне просто нужно изменить одну строку кода и перезапустить программу, чтобы получить желаемый результат. С помощью интеграции Python-Excel я максимизирую эффективность, следя за всем рабочим процессом анализа данных в единой платформе.

 

4. Визуализация данных

 

Хотя сам Excel предлагает множество вариантов визуализации, инструмент все же ограничен в типах графиков, которые можно построить. Графики, такие как скрипичные диаграммы, тепловые карты и диаграммы пар, не так просто создать в Excel, что затрудняет представление сложных статистических связей для специалистов по обработке данных.

Возможность запускать код Python позволит пользователям Excel использовать библиотеки, такие как Matplotlib и Seaborn, для создания более сложных и настраиваемых графиков.

 

 

Как использовать Python в Excel?

 

На момент написания этой статьи функция Python-Excel доступна только через программу Microsoft 365 Insider. Вам необходимо зарегистрироваться и выбрать уровень Insider в качестве бета-канала, чтобы получить доступ к этой функции, так как она еще не была выпущена для публичного доступа.

После присоединения к программе 365 Insider вы найдете раздел Python на вкладке Формулы. Вам нужно просто нажать на «Вставить Python». Вы можете щелкнуть на нем, чтобы начать писать свой собственный код на Python. 

Кроме того, вы можете просто ввести =PY в любую ячейку, чтобы начать.

 

 

Интеграция Python-Excel демократизирует науку о данных

 

С выпуском ChatGPT, а также плагинов, таких как интерпретатор кода и заметки, многие задачи, которые ранее требовали серьезных технических навыков, стали проще в выполнении.

Это особенно верно для специалистов по обработке данных и аналитиков – теперь вы можете загружать файлы CSV в ChatGPT, и он будет очищать, анализировать и создавать модели на ваших наборах данных.

На мой взгляд, интеграция Python-Excel приближает нас к демократизации науки о данных и аналитике.

В сферах, таких как маркетинг и финансы, специалисты, работающие исключительно в Excel, теперь смогут выполнять анализ своих данных, даже не загружая среду программирования.

Возможность работать с данными в интерфейсе, с которым они знакомы, в сочетании с умением ChatGPT писать код, позволит не программистам выполнять рабочие процессы в области науки о данных и решать проблемы с помощью кода Python.

Если вы пользователь Excel, не знающий, как программировать, это отличная возможность научиться программированию на Python в интерфейсе, с которым вы уже знакомы.     Наташа Сельварах – самоучка-данный ученый с увлечением к письменной деятельности. Вы можете связаться с ней в LinkedIn.