Количественная оценка скрытых регрессий в GPT-4 со временем

Quantitative assessment of hidden regressions in GPT-4 over time

Часть 3 исследования использования и тестирования генеративного искусственного интеллекта

Фото от Randy Fath на Unsplash

GPT-4 больше и лучше, чем GPT-3. GPT-4 может составлять красноречивые речи, сдавать стандартизированные экзамены и даже интерпретировать изображения. С момента его выпуска 14 марта 2023 года, OpenAI продолжает разрабатывать и обновлять GPT-4, чтобы улучшить его производительность для миллионов запросов, которые он получает каждый день. Однако, является ли последняя версия GPT-4 в API OpenAI, называемая “gpt-4”, на самом деле лучше, чем начальная версия от марта, называемая “gpt-4–0314”?

С точки зрения инженера машинного обучения в Kolena, данный статья является продолжением серии обсуждений, выделяющих парадигму тестирования для LLM, сравнивающую производительность моделей GPT в различных сценариях.

Хотя общее поведение “gpt-4” может быть лучше, чем “gpt-4–0314” по результатам различных тестовых показателей и метрик, слово “лучше” является относительным понятием. Пользователи сообщили онлайн, что они наблюдали недавнюю регрессию в производительности модели GPT-4 в различных контекстах. Один вирусный случай регрессии GPT-4 со временем заключается в том, что он не смог определить, что число 17077 является простым числом так хорошо, как раньше.

Естественно, использование самой актуальной модели, которая постоянно снижает субъективную и объективную производительность, проблематично. Какие другие регрессии могут скрытно существовать?

Мы можем проверить наличие скрытых регрессий в GPT-4, используя набор данных CoQA (Conversational Question Answering)**. Набор данных CoQA содержит несколько статей, каждая из которых имеет серию соответствующих вопросов, где понимание вопроса n необходимо для ответа на вопрос n+1. Возьмем статью о спортивной истории в качестве примера, вот некоторые потенциальные вопросы:

1. Кто является самым украшенным олимпийцем?2. Из какой страны они?3. Сколько у них золотых медалей?

Невозможно ответить на эти вопросы отдельно, потому что мы бы не знали интересующего нас человека без ответа на первый вопрос.

Выводы

На высоком уровне GPT-4 проявляет себя значительно лучше, чем GPT-3, но все равно не является идеальным:

+------------+-------------+-------------+-----------+|   model    | avg_BERT_F1 | avg_ROUGE_1 | n_correct |+------------+-------------+-------------+-----------+| gpt-4      |     0.92729 |     0.77735 |      4708 || gpt-4–0314 |     0.92497 |     0.77284 |      4718 || gpt-3      |     0.90845 |     0.71676 |      4348 |+------------+-------------+-------------+-----------+

Примечание: “gpt-3” является последней моделью Turbo серии GPT-3.5, а n_correct – это количество вопросов, где среднее значение BERT_F1 и ROUGE_1 больше 0,75

Из вышеперечисленного, почему “gpt-4–0314” хуже по метрике (BERT_F1 и ROUGE_1) , но имеет больше правильных ответов, чем “gpt-4”? Возможно, обе модели неправильно отвечают на одни и те же вопросы, но нет гарантии, что наборы неудач моделей “gpt-4” и “gpt-4–0314” однородны. При условии, что новая модель должна быть более производительной, причина этой разницы или регрессии не объяснима при наблюдении метрик. Мы можем более детально исследовать потенциальные причины отказов, разбивая данные на более мелкие группы.

Когда мы разделяем набор данных CoQA с учетом источника данных каждой статьи, мы увидим, что вопросно-ответные данные, относящиеся к статьям Википедии, проявили себя лучше в новейшей модели GPT-4, но хуже в целом и в каждом другом источнике данных.

Сравнение «gpt-4» и «gpt-4–0314» по показателям BERT_F1, ROUGE_1 и количеству правильных ответов, взятых из Kolena

На изображении выше показано сравнение между «gpt-4–0314» в качестве эталона и «gpt-4», выделяющее различия в количестве правильных ответов, сгенерированных в зависимости от улучшения или ухудшения в разных источниках данных. Что касается количества правильных ответов, GPT-4 улучшается только на основе данных из Википедии и показывает снижение производительности во всех остальных случаях.

Анализ

Это говорит о том, что «gpt-4» является улучшенной версией «gpt-4–0314» статьи на Википедии? К сожалению, мы не знаем.

Можем ли мы сказать, что GPT-4 стал хуже? Согласно этому критерию, не обязательно. В то время как академия считает Википедию ненадежным источником информации, многие люди все еще регулярно используют ее для быстрого и доступного получения информации. Если OpenAI хочет, чтобы GPT отвечал на любые вопросы в любой области, то полное понимание Википедии ценнее, чем понимание новостных статей, когда пользователи задают миллионы случайных запросов ежедневно. В новостных статьях обычно присутствуют общие темы, и обычный человек, вероятно, не будет задавать вопросы GPT, касающиеся новостных статей по темам, отсутствующим в Википедии.

До разделения набора данных по разным источникам данных не было четкого объяснения того, почему «gpt-4–0314» получил большее количество правильных результатов по сравнению с «gpt-4». С помощью только одного разделения мы получаем одно вероятное объяснение того, почему и как модели различаются.

Заключение

С течением времени GPT-4 ухудшился в области ответов на вопросы в разных источниках данных, но улучшился в производительности для запросов, связанных с статьями Википедии.

Умение выявлять скрытые регрессии должно быть приоритетом для всех инженеров перед развертыванием моделей в производство. Поиск скрытых регрессий для языковых моделей не является тривиальной задачей, но становится проще с правильным подходом. Лучшая модель не обязательно та, у которой лучшая общая производительность, а та, у которой лучшие результаты в наиболее важных сценариях.

Мы еще подробнее рассмотрим различные разделения набора данных CoQA, чтобы более полно понять, как GPT-4 изменился со временем, в будущем блоге. Оставайтесь на связи!

** Набор данных CoQA содержит данные из семи разных наборов данных, имеющих разные лицензии. В этой статье мы не раскрываем никаких данных внутри набора данных, а использовали данные только для тестирования и анализа из таких коммерчески доступных источников данных, как Gutenberg, CNN, MCTest и Wikipedia, с лицензией CC BY-SA 4.0, MSR-LA или Apache.