За пределами учебников изучение анализа данных с помощью агента Pandas от LangChain

Изучение анализа данных с помощью Pandas от LangChain

Как использовать агента Pandas LangChain в качестве вашего сопилота.

Изображение автора.

Введение

Pandas стал стандартной библиотекой Python для обработки и анализа данных благодаря своему богатому API и интуитивной структуре данных. Однако для начинающих, которые хотят использовать Pandas для анализа данных, все еще существует крутой кривая обучения. Несмотря на то, что существует множество отличных учебников по Pandas, ничто не сравнится с обучением у опытного специалиста по обработке данных.

Вот где на сцену выходит агент Pandas LangChain. LangChain – это библиотека Python, которая предоставляет стандартизированный интерфейс для взаимодействия с LLM. Агент является ключевым компонентом LangChain. Можно представить себе агента как сущность, интеллект которой обеспечивается большой языковой моделью (LLM) и имеет доступ к набору инструментов для выполнения своей задачи. Агент Pandas LangChain позволяет пользователям использовать мощь LLM для обработки и анализа данных с использованием Pandas. В этой статье мы рассмотрим, как использовать агента Pandas LangChain для работы с набором данных.

Пример

Предварительные требования

Вот настройки, используемые для этого примера.

  • Visual Studio Code
  • Ключ API OpenAI
  • Версия Python 3.9
  • Python-пакет
tabulate==0.9.0langchain==0.0.259pandas==2.0.3openai==0.27.9

Данные

Мы будем использовать подмножество набора данных о ценах на жилье в Сингапуре[1]. Набор данных, предоставленный Управлением развития жилья, показывает транзакции по перепродаже домов. Он содержит информацию, такую как год-месяц транзакции, тип квартиры, местоположение, размер квартиры и цену перепродажи.

Изображение автора.

В отдельном файле CSV у нас есть атрибут, связанный с городом.

Изображение автора.

Настройка