«Используйте LLM только в том случае, если вы знаете, как выполнять задачу самостоятельно»

«Лучше использовать LLM только, если вы уверены в своей способности выполнять задачу самостоятельно»

В противном случае вы можете столкнуться с незаметными ошибками или суровыми последствиями

(изображение, созданное автором с помощью Midjourney)

Для большинства из нас (или всех нас) LLM-ы являются загадочными коробками, которые удивительно быстро справляются с сложными задачами. Мы обычно не интересуемся “как” они работают, пока они дают нам то, что нам нужно.

ChatGPT и другие LLM-ы, безусловно, повышают производительность. Они легко справляются с различными задачами, которые в противном случае были бы утомительными и времязатратными.

Однако полностью полагаться на них нельзя. Например, когда речь идет о анализе данных, как мы можем быть уверены, что выводы ChatGPT о данных являются точными? Да, он знает Pandas, популярную библиотеку для анализа данных, но что, если он сделает ошибку? Или что произойдет, если он частично выполнит задачу и не справится с остальным?

Лучшим решением, дополняющим ChatGPT, являетесь вы. Вам нужно знать, как выполнять задачу самостоятельно, чтобы:

  1. Вы можете убедиться, что решение ChatGPT является правильным.
  2. Вы можете заменить ChatGPT, когда он не справляется или не знает, как выполнить задачу.

В этой статье я покажу вам три примера, которые подтверждают мои упомянутые два утверждения.

Пример 1: Очистка данных с использованием Pandas

У меня был набор данных о подержанных автомобилях, содержащий цены и некоторые другие атрибуты подержанных автомобилей. Это был достаточно запутанный набор данных, требующий большого количества очистки. Для этой задачи я использовал плагин ChatGPT Advanced Data Analysis (ADA).

В основном он справился с задачей. Однако была одна очень конкретная операция, которую ChatGPT ADA не смог выполнить. Поэтому, если бы я не знал, как это сделать, задача не могла бы быть закончена.

Давайте сначала объясню, какую часть ChatGPT ADA не удалось выполнить.

Вероятно, из-за ошибок ввода данных, некоторые строки столбца с маркой (т.е. маркой или производителем автомобиля) содержат значения годов. Исследуя эти строки, я понял, что значения марки были записаны в столбце модели. Чтобы исправить ситуацию, необходимо извлечь часть с маркой из столбца модели и использовать ее для замены значения года в столбце марки.

Вот как это исправить: