Ретро-инженерирование схемы базы данных GPT против Bard против LLama2 (Эпизод 2)

Сравнение ретро-инженерных схем базы данных GPT, Bard и LLama2 (Эпизод 2)

В моей предыдущей статье я провела сравнительный анализ модели GPT-4 и модели Bard. Теперь Лама-2 входит на арену, и настало время увидеть, как она справляется с конкурентами!

Фото Dustin Humes на Unsplash

Начальный (и конечный) набор данных

Как объясняется в этой первой статье, мы начнем с фиктивного набора данных, сгенерированного ИИ, содержащего информацию о сотрудниках.

Ретроинжиниринг схемы базы данных и проверка качества: GPT против Bard

Могут ли LLMs ретроинжинирить объединенный набор данных для разработки исходной базы данных и предложения соответствующих данных…

towardsdatascience.com

Исходная таблица имеет 11 столбцов x 7688 строк, но мы ограничим выборку 50 строками, чтобы учесть текущие ограничения токенов LLMs.

Пример исходных данных (изображение автора)

(Примечание: блокнот и источник данных доступны в конце статьи)

Ретроинжиниринг модели данных

Идея здесь заключается в том, чтобы попросить каждый LLM проанализировать эти выборочные данные и предоставить некоторое представление о том, как может выглядеть исходная схема данных.

Мы будем использовать ту же подсказку, что и для GPT-4 и Bard:

Могли бы вы: - определить категориальные столбцы в этом наборе данных, а также конфиденциальные - предложить схему базы данных с разными таблицами (обратите внимание на создание отдельной таблицы для конфиденциальных данных) - для таблиц с категориальными данными, пожалуйста, предоставьте SQL-скрипт для их создания, включая содержимое (ключи и значения) - для остальных таблиц, предоставьте скрипт для создания их схемы - для каждого столбца каждой таблицы предложите некоторые проверки качества данных

Отлично! … Но теперь вопрос: “Где я могу протестировать Лама-2?”

Есть несколько вариантов:

  • Самый очевидный (но также более сложный и дорогой 💸) – разместить модель на выделенном сервере в вашей облачной архитектуре. Обычно это…