Я протестировал ChatGPT ADA для очистки данных. Он очень полезный, но не справляется с логическими рассуждениями.

Мое тестирование ChatGPT ADA для очистки данных полезный инструмент, но не идеал для логических рассуждений.

Посмотрим, насколько это может быть хорошим или плохим

(изображение создано автором с помощью Midjourney)

Большая часть работ, связанных с данными, заключается в их очистке. Обычно нет стандартного способа очистки данных, поскольку они могут быть представлены в различных форматах.

Мы сталкиваемся с несоответствиями, ошибками при вводе данных и многими другими типами проблем, которые необходимо решить до использования данных для последующих процессов.

Я протестировал плагин ChatGPT Advanced Data Analysis (ADA) для задачи очистки данных, связанных с автомобильным набором данных.

TL;DR ChatGPT ADA прекрасно помогает использовать библиотеки очистки данных для выполнения необходимых задач, но в некоторых случаях не справляется с определением дальнейших действий.

Фактически, я уже самостоятельно очищал набор данных ранее. Теперь я хочу увидеть, как плагин ChatGPT ADA подойдет к этой задаче и осуществит очистку. Я предоставлю свой код, а также код ChatGPT, чтобы вы могли сравнить.

Для использования ADA необходимо активировать его в настройках в разделе бета-версий. Затем, при начале нового чата, просто нажмите ADA перед написанием любых инструкций.

Как активировать ADA (изображение автора)

Следующий шаг – загрузить набор данных в чат, что можно сделать, используя кнопку “+” рядом с окном запроса.

Как загрузить набор данных в чат (изображение автора)

Вот первые 5 строк набора данных:

(изображение автора)

Я создал набор данных с фиктивными данными. Однако он похож на набор данных по автомобилям, которые можно собрать с веб-сайтов. Я знаю это, потому что уже делал это раньше. Вы можете скачать набор данных из моего репозитория datasets, если хотите протестировать этот плагин самостоятельно. Он называется “mock_car_dataset”.

Подсказки

Сначала я задал ChatGPT общий вопрос:

Me: Расскажи мне о этом наборе данных