Наброски будущего исследований и изучения табличных данных

Необычные миры будущие исследования и анализ таблиц данных

For those doing exploratory data analysis on tabular data: there is Sketch, a code-writing assistant that seamlessly integrates bits of your dataframes into prompts

I’ve made this map using Sketch, Jupyter, Geopandas, and Keplergl

Для нас, профессионалов работы с данными, прогресс в области искусственного интеллекта приводит к созданию новых рабочих процессов и расширению нашего инструментария. В этой статье я поделюсь своим опытом использования одного из таких новых инструментов для решения практических задач.

Что такое Sketch

Sketch – это пакет PyPI, который добавляет мощь OpenAI API к традиционному процессу исследования данных с использованием Pandas и Jupyter. Согласно официальной документации, Sketch – это интеллектуальный помощник по написанию кода на основе искусственного интеллекта для пользователей pandas, который понимает контекст ваших данных, значительно улучшая релевантность предложений. Sketch готов к использованию в течение нескольких секунд и не требует добавления плагина в вашу среду разработки.

GitHub — approximatelabs/sketch: Интеллектуальный помощник по написанию кода, который понимает контекст данных

Sketch – это интеллектуальный помощник по написанию кода для пользователей pandas, который понимает контекст ваших данных, значительно улучшая…

github.com

Sketch можно установить всего за несколько секунд и не требует использования ключей API или сложной процедуры настройки. Просто установите его с помощью команды pip install sketch и выполните импорт для его подключения.

import pandas as pdimport geopandas as gpdimport sketch

Вкратце, Sketch дополняет ваш запрос контекстом из фактического dataframe, значительно повышая качество ответов. Я попробовал его и действительно впечатлен.

df.sketch.ask()

Синтаксис df.sketch.ask() представляет собой способ использования системы вопрос-ответ в Sketch. Чтобы проверить его полезность, я загрузил файл формы parcel из округа Брансуик в GeoPandas dataframe (что весьма типично для исследования данных в любом технологическом пакете):

Столбцы данных (всего 8 столбцов): #   Колонка      Кол-во значений   Тип    ---  ------      --------------   -----    0   PIN         149686 непустых  объект   1   CALCAC      152593 непустых  float64  2   PARCEL_ID   148871 непустых  объект   3   PARCELTYPE  152593 непустых  int64    4   SUBCODE…