Глубокий анализ достоверности моделей GPT

Анализ достоверности моделей GPT

Более половины опрошенных в недавнем глобальном опросе заявили, что они будут использовать эту новую технологию для чувствительных областей, таких как финансовое планирование и медицинское руководство, несмотря на опасения, что она полна галлюцинаций, дезинформации и предвзятости. Многие области получили выгоду от последних достижений в области машинного обучения, особенно от больших языковых моделей (LLM), которые использовались в чат-ботах, медицинской диагностике и роботах. Были разработаны различные показатели для оценки языковых моделей и лучшего понимания их возможностей и ограничений. Например, были разработаны стандартизированные тесты для оценки всеобщего языкового понимания, такие как GLUE и SuperGLUE.

Более недавно HELM был представлен в качестве всеобъемлющего теста LLMs для нескольких случаев использования и показателей. По мере того, как LLMs используются во все большем количестве областей, возникают сомнения в их надежности. Большинство существующих оценок надежности LLM узко фокусируются на таких факторах, как устойчивость или чрезмерная уверенность.

Кроме того, увеличение возможностей масштабных языковых моделей может ухудшить трудности с надежностью LLMs. В частности, GPT-3.5 и GPT-4 проявляют улучшенные способности следовать инструкциям, благодаря специализированной оптимизации для диалога. Это позволяет пользователям настраивать тона и роли, а также другие параметры адаптации и персонализации. В отличие от более старых моделей, которые были хороши только для заполнения текста, улучшенные возможности позволяют добавлять функции, такие как вопросно-ответная система и контекстное обучение через краткие демонстрации во время дискуссии.

Чтобы обеспечить полную оценку надежности моделей GPT, группа ученых сосредоточилась на восьми аспектах надежности и оценила их с использованием различных сценариев, задач, метрик и наборов данных. Главная цель группы состоит в измерении устойчивости моделей GPT в сложных условиях и оценке их производительности в различных контекстах надежности. Обзор фокусируется на моделях GPT-3.5 и GPT-4, чтобы подтвердить, что результаты являются последовательными и могут быть воспроизведены.

Давайте поговорим о моделях GPT-3.5 и GPT-4

Новые формы взаимодействия стали возможными благодаря моделям GPT-3.5 и GPT-4, двум преемникам модели GPT-3. Эти передовые модели прошли масштабирование и повышение эффективности и улучшение процессов обучения.

Предварительно обученные авторегрессивные (только декодер) трансформеры, такие как GPT-3.5 и GPT-4, работают аналогично своим предшественникам, генерируя текстовые токены слева направо и обратно подавая предсказания, которые они сделали по этим токенам. В отличие от GPT-3, количество параметров модели в GPT-3.5 остается на уровне 175 миллиардов. В то время как точный размер набора параметров и предварительно обучающего корпуса GPT-4 остается неизвестным, общеизвестно, что для обучения GPT-4 требуется больше финансовых затрат, чем для GPT-3.5.

GPT-3.5 и GPT-4 используют традиционную потерю предварительного обучения для максимизации вероятности следующего токена. Чтобы дополнительно проверить, что LLMs следуют инструкциям и производят результаты, соответствующие человеческим идеалам, GPT-3.5 и GPT-4 используют обучение с подкреплением на основе обратной связи от человека (RLHF).

Эти модели могут быть доступны с помощью системы запросов OpenAI API. Вывод можно контролировать путем настройки параметров температуры и максимального количества токенов через вызовы API. Ученые также указывают на то, что эти модели не являются статическими и могут изменяться. В экспериментах они используют стабильные варианты этих моделей, чтобы гарантировать надежность результатов.

С точки зрения токсичности, предвзятости, устойчивости к атакам и робастности на экземплярах вне области определения, устойчивости к адверсальным демонстрациям, конфиденциальности, этики и справедливости, исследователи представляют подробные оценки надежности моделей GPT-4 и GPT-3.5. В целом они обнаруживают, что GPT-4 превосходит GPT-3.5 во всех аспектах. Однако они также обнаруживают, что GPT-4 более подвержен манипуляциям, так как он более точно следует инструкциям, что вызывает новые проблемы безопасности в случае обхода блокировки или ввода в заблуждение (адверсальных) системных подсказок или демонстраций через контекстное обучение. Кроме того, примеры показывают, что множество характеристик и свойств ввода могут влиять на надежность модели, что стоит дополнительного исследования.

В свете этих оценок можно проследить следующие направления исследований, чтобы узнать больше о таких уязвимостях и защитить LLMs от них с использованием моделей GPT. Более совместные оценки. Они в основном используют статические наборы данных, такие как обсуждение в 1-2 раунда, для изучения различных аспектов надежности для моделей GPT. Важно рассмотреть LLMs с интерактивными дискуссиями, чтобы определить, будут ли эти уязвимости становиться более серьезными по мере развития огромных языковых моделей.

Ошибочный контекст – это основная проблема при изучении контекста вне зависимости от ложных демонстраций и системных подсказок. Они предоставляют различные системные подсказки и ложные (адверсарные) демонстрации, чтобы проверить слабые места моделей и получить представление о их наихудшей производительности. Вы можете управлять выводом модели, намеренно внедряя ложную информацию в диалог (так называемый “ловушка разговора”). Исследование восприимчивости модели к различным формам предвзятости было бы увлекательным.

Оценка с учетом союзных врагов. Большинство исследований учитывают только одного противника в каждом сценарии. Но на практике, в случае достаточных экономических стимулов, вероятно, разнообразные конкуренты объединятся, чтобы обмануть модель. Поэтому исследование потенциальной восприимчивости модели к координированным и скрытым враждебным действиям является ключевым.

  • Оценка достоверности в конкретных условиях. Стандартные задачи, такие как классификация настроений и задачи NLI, иллюстрируют общие уязвимости моделей GPT в представленных здесь оценках. Учитывая широкое использование моделей GPT в областях, таких как право и образование, оценка их уязвимостей с учетом конкретных приложений является необходимой.
  • Проверка надежности моделей GPT. Хотя эмпирические оценки LLMs являются важными, они часто лишены гарантий, особенно в отношении отраслей, связанных с безопасностью. Кроме того, их дискретная структура затрудняет их надежную проверку. Предоставление гарантий и проверок производительности моделей GPT, возможно, на основе их конкретных функциональностей, обеспечение проверки на основе абстракций модели или отображение дискретного пространства в соответствующее непрерывное пространство, такое как пространство вложения с сохранением семантики, являются примерами того, как сложную проблему можно разбить на более управляемые подпроблемы.
  • Включение дополнительной информации и анализа рассуждений для защиты моделей GPT. Поскольку они основаны исключительно на статистике, моделям GPT необходимо улучшаться и не могут рассуждать о сложных проблемах. Для обеспечения достоверности результатов модели может потребоваться предоставление моделям языка предметных знаний и способности логически рассуждать, а также охрана их результатов для обеспечения соответствия базовым предметным знаниям или логике.
  • Обеспечение безопасности моделей GPT, основанных на игровой теории. Используемые в их создании системные подсказки “ролевой игры” демонстрируют, насколько легко модели могут быть обмануты просто переключением и манипуляцией ролями. Это подразумевает, что во время диалогов моделей GPT можно создавать различные роли, чтобы гарантировать согласованность ответов модели и, таким образом, предотвращать конфликты в моделях. Можно назначить конкретные задачи, чтобы модели полностью понимали ситуацию и предоставляли надежные результаты.
  • Тестирование версий моделей GPT в соответствии с конкретными руководствами и условиями. Хотя модели оцениваются на основе их общей применимости, у пользователей могут быть специализированные потребности в области безопасности или надежности, которые должны быть учтены. Поэтому для более эффективной и эффективной аудитории модели важно сопоставить потребности и инструкции пользователей с конкретными логическими пространствами или контекстами проектирования и оценить, удовлетворяют ли выводы этим критериям.