5 столпов надежного тестирования LLM

5 ключевых принципов надежного тестирования LLM

Часть 4 исследования использования и тестирования генеративного искусственного интеллекта

Фотография: Yasmine Duchesne на Unsplash

Большие языковые модели (LLM) проникли в руки работников различных отраслей, в мозги лидеров технологических компаний и в сердца студентов в любой образовательной среде. Но с большой мощностью и еще большим количеством параметров моделей приходит большая ответственность. Теперь растущая озабоченность компаний, специалистов и даже студентов заключается в том, когда и где LLM терпит неудачу.

С точки зрения инженера машинного обучения в Kolena, настоящая статья является продолжением серии дискуссий, которые выявляют парадигму тестирования для LLM, выявляя основные причины отказа LLM на высоком уровне.

Что делает LLM недостоверным?

Предположим, что LLM получает длинные и подробные заметки врача о пациенте, чтобы помочь рекомендовать подходящее лекарство. Однако, если LLM не распознает аллергии пациента, неправильный вывод LLM может привести к угрозе жизни.

Когда LLM допускает ошибку или даже производит ложную информацию, широко называемую галлюцинацией, последствия могут быть значительными. В одном драматическом случае с участием LLM Bard от Google, галлюцинации обошлись компании более чем в 100 миллиардов долларов! Будь то здоровье человека или финансовое состояние компании, обнаружение галлюцинаций, которые LLM может произвести, является критически важным.

Так что такое доверительный LLM? В различных сценариях использования пользователи определяют надежность по-разному – например, судьи требуют минимизации предвзятости, писатели желают максимизировать качество генерации. Диаграммы ниже показывают значимость понимания поведения LLM. Для определенных групп пользователей и общих приложений, базовые модели GPT могут быть отличным выбором, но для более сложных приложений базовые модели GPT могут уже не работать эффективно. Возможно, имеет больше смысла создавать или настраивать LLM для конкретных целей, а затем тестировать их, чтобы убедиться в их надежности.

СРАВНЕНИЕ ПО ПЯТИ ПИЛЛАРАМ НАДЕЖНОГО ТЕСТИРОВАНИЯ LLM

Есть несколько факторов, используемых для оценки общей производительности LLM, которая не ограничивается лишь популярной темой галлюцинаций. LLMs могут быть очень гибкими, поэтому у них естественным образом возникают различные режимы отказа. На высоком уровне необходимо учитывать следующие 5 пилляров:

  1. Галлюцинация
  2. Предвзятость
  3. Мышление
  4. Качество генерации
  5. Механика модели

Если люди проводят тестирование машинного обучения или LLM, используя принципы тестирования программного обеспечения, тестирование по этим пиллярами достаточно просто. Например, разработчики могут определить наличие галлюцинаций, используя наборы данных, аналогичные TruthfulQA. Качество генерации может быть количественно оценено с помощью анализа настроения или метрик читабельности. В конечном итоге, способ оценки производительности LLM меняется в зависимости от разных целей, поэтому необходимо настраивать пользовательские процессы оценки для каждого пилляра.

Галлюцинация

Для определенных пользователей действительность и точность LLM являются важнейшими. Поэтому первым пилляром тестирования LLM является галлюцинация. Галлюцинация относится к выводу LLM, который не соответствует фактам реального мира. Это происходит потому, что LLM – это генеративные агенты, которые стремятся производить впечатляющие и приятные результаты. Если они не могут вспомнить правильную информацию в контексте для производства ответов, они не могут быть абсолютно правдивыми и будут дополнять информацию, чтобы заполнить пробелы.

Галлюцинации являются первым столбом LLM тестирования, потому что пользователи могут не заметить неправдивости LLM при выполнении обычных задач NLP или задавая вопросы, касающиеся STEM (науки, технологии, инженерии и математики), в масштабах. Для узконаправленных приложений, таких как продвинутые случаи использования, связанные с юридической или медицинской отраслями, галлюцинации могут быть более распространенными, поскольку предварительно обученным LLM может быть сложно понять жаргон и не обладать достаточными знаниями для выполнения конкретных задач.

Примеры:

Галлюцинации в общих вопросах и ответах: Пользователь: Почему Джек и Джилл поднялись на холм? Модель: Джек и Джилл поднялись на холм, чтобы пить воду. Проблема: В детской детской песенке Джек и Джилл пошли за водой. Модель утверждает, что они идут пить воду.

Галлюцинации в математике: Пользователь: Является ли число 17077 простым? Модель: Нет, число 17077 не является простым. Проблема: 17077 – простое число.

Галлюцинации в научном письме: “Из 178 проанализированных ссылок… 28 ссылок не обнаружены в поиске Google и не имеют существующего DOI” – PubMed Проблема: ChatGPT придумывает несуществующие ссылки.

Предвзятость

Постоянной проблемой, с которой сталкиваются инженеры и пользователи, является предвзятость машинного обучения. Это вызов, который развивается вместе с ростом индустрии искусственного интеллекта. Предвзятость и несправедливость – это синонимы, которые различаются в определении по конкретному случаю и пользователю. Различные группы и заинтересованные стороны могут по-разному определить, что означает быть справедливым. Например, должна ли модель различать между равноправием и равенством?

Решение проблемы предвзятости является значительной и очевидной задачей в каждом процессе тестирования машинного обучения, и это особенно важно для LLM, поскольку они обучаются на различных источниках в интернете. Представьте, сколько новостных заголовков мы бы увидели, если бы GPT-4 внезапно стал открыто расистским и сексистским? Этические вопросы, связанные с LLM, создающими расовую, религиозную, гендерную, политическую или социальную предвзятость, указывают на необходимость последующих исследований и развития в области тестирования LLM.

Пример:

Религиозная предвзятость в ChatGPT-3.5

Из вышеприведенного видно, как OpenAI снижает предвзятость, гарантируя, что ни один вывод не отражает христианофобию или исламофобию, которые существуют в мире и могут существовать в его обучающих данных. Однако мы также видим, что вывод модели для христианина и мусульманина отличается, поскольку после подсказки о мусульманине ChatGPT в основном говорит, что мы не должны быть расистами. Поскольку обе диалоги с ChatGPT происходили независимо, этот единственный пример достаточно показывает, что идеальное устранение предвзятости сложно.

Мышление

LLM могут испытывать трудности с задачами, требующими глубокого понимания контекста, в котором человеческие эксперты превосходят их. Когда LLM имеют способность мыслить и логически обрабатывать информацию, они имеют более высокие шансы понять сложные случаи использования и генерировать точные и последовательные ответы. Кроме того, возможность рассуждать может повысить применимость LLM в различных профессиональных областях, таких как право, здравоохранение и научные исследования.

Трудно утверждать, что вывод LLM является достоверным или надежным в отсутствие прозрачного обоснования. Например, в обычных задачах NLP способности LLM к рассуждению могут стать разницей между предоставлением содержательного ответа и простым повторением сохраненной информации. Путем непрерывной оценки и улучшения способности LLM к рассуждению мы можем обеспечить, чтобы они предоставляли более точные и надежные результаты.

Примеры:

Рассуждение в литературе: Пользователь: В детской песенке Джек и Джилл, почему, на ваш взгляд, они свалились? Объясните свое рассуждение. Модель: […] Вот несколько возможных интерпретаций: 1. Авария: Самая простая интерпретация заключается в том, что Джек и Джилл свалились совершенно случайно. Как и у всех детей, они могли споткнуться или потерпеть неудачу во время подъема на холм, что может случиться с любым, будь то маленький или большой. 2. Моральный урок: Некоторые предположили, что песня могла быть создана для того, чтобы научить детей уроку о последствиях непослушания или небрежности. […]

Рассуждение в математике: Пользователь: Сумма натуральных чисел от 1 до n равна ли n*(n+1)/2? Если да, докажите это поэтапно. Модель: Да, сумма натуральных чисел от 1 до n действительно равна n*(n+1)/2. Это хорошо известный результат и может быть доказан с помощью математической индукции. Математическая индукция – это метод доказательства, который включает два шага: 1. Базовый случай: Доказать, что утверждение верно для наименьшего возможного значения n. 2. Индуктивный шаг: Предположить, что утверждение верно для некоторого произвольного положительного целого числа k и затем доказать, что оно также должно быть верно для k+1. Давайте докажем это утверждение пошагово: Базовый случай (n = 1): Когда n = 1, мы должны показать, что 1*(1+1)/2 = 1. Это действительно так: 1*(1+1)/2 = 1*2/2 = 2/2 = 1. Итак, базовый случай верен. Индуктивный шаг: Предположим, что сумма натуральных чисел от 1 до k равна k*(k+1)/2 для некоторого положительного целого числа k. Это наша индукционная гипотеза (IH). […]

Качество генерации

LLM-ы должны учитывать качество генерации по нескольким причинам:

1. Этическая ответственность. LLM-ы способны генерировать огромные объемы текста и должны создавать контент, соответствующий этическим, моральным и общественным стандартам. Повышение качества генерации помогает решить проблему наличия токсичного, ненавистнического, вредного, пропагандистского или неуместного контента, чтобы он не распространял некорректные идеологии или разновидности онлайн-травли. Например, LLM никогда не должен поощрять незаконную деятельность.

2. Конфиденциальность и безопасность. Обучение LLM-ов на большом объеме данных может привести к опасности раскрытия личной информации. Кроме того, если облако регистрирует историю использования, личная информация может быть легко сохранена прямо из запросов, если пользователи неосторожны. Важно, чтобы разработчики обеспечивали соответствие правилам правительства, убедившись, что LLM имеет подходящий уровень конфиденциальности для отдельных лиц и помогают им сохранять безопасность их личной информации. Например, LLM никогда не должен неправильно раскрывать личную информацию, которая может поставить кого-то в опасность.

3. Связность. Качество создаваемого контента прямо влияет на пользовательский опыт. Если LLM иногда создает контент низкого качества или несвязные ответы, пользователи могут потерять интерес к системе. Повышение качества генерации позволяет LLM предложить более читаемый, связный и полезный вывод, что улучшает его применимость для различных задач, таких как помощь в написании, перевод языков или краткое содержание контента. Например, LLM должен избегать грамматических ошибок и использовать словарный запас, соответствующий целевой аудитории.

В итоге, когда мы фокусируемся на повышении качества генерации для LLM-ов, важно удерживать этические стандарты, обеспечивать конфиденциальность и безопасность и предоставлять связные результаты для максимально возможного пользовательского опыта.

Механика модели

Важность тестирования механики LLM заключается в том, чтобы убедиться в ее адаптируемости, универсальности и широком применении. Будь то ответы на вопросы, перевод языков или даже программирование, модель должна без проблем переключаться между различными применениями (если она не служит одному конкретному применению). Некоторые примеры такой механики – эффективность, последовательность и персонализация.

Самое основное свойство, которое пользователи рассматривают, это стоимостная эффективность LLM. LLM-ы могут стоить слишком много денег или занять слишком много времени для достижения одного результата, что создает преграды для доступности модели, особенно при работе с задачами масштаба. Стоит также упомянуть стоимость обучения LLM, которая составляет миллионы долларов, и оставляет огромный экологический след. В случае с GPT-3 от OpenAI его обучение привело к созданию 502 метрических тонн углерода, и доступность модели способствует росту этого следа со временем.

В некоторых случаях, однородные и надежные ответы являются важными, что означает, что LLM должны обладать согласованностью. В других случаях ценится креативность. Креативность LLM часто контролируется параметром, называемым температурой.

Персонализация – еще одна важная механика, позволяющая пользователям легко направлять LLM в нужном направлении для получения лучшего конечного результата. С одной стороны, это означает, что LLM должны готово отвечать на любой запрос пользователя, правильно отражая его требования в различных запросах на стиль, тональность или специальные инструкции. Люди называют это возможностью инжиниринга запросов. С другой стороны, превышая простые взаимодействия с чат-ботом или интерфейсом, LLM должны быть легко обновляемыми, переобучаемыми или настраиваемыми для любого конкретного применения.

Примеры:

Промпт хайку: Пользователь: Напиши хайку о университете. Модель: Книги и лекции шепчут, Дыхание знания на кампусе, Разум расцветает на каждом занятии.

Промпт на Pig Latin: Пользователь: Пожалуйста, в одном предложении своди сюжет фильма “В поисках Немо” на Pig Latin. Модель: В океане милый рыбонок только ищет своего отца, путешествуя с дружной толпой разноплановых товарищей.

У различных приложений будут разные механики, имеющие значение. Для некоторых взаимодействия через API с очень высокой пропускной способностью будут абсолютно необходимы круглосуточно. Другим может понадобиться, чтобы LLM сохранял контекстную информацию от нескольких сообщений со временем или быть разумным и объяснимым. С таким множеством применений LLM важно, чтобы все пользователи, инженеры и заинтересованные лица определили механику модели, которая для них важна, обеспечивая максимальную полезность и эффективность.

Заключение

Ответственность искусственного интеллекта выходит за рамки этих пяти основных принципов, но на высоком уровне все LLM-ы должны соответствовать некоторому стандарту производительности в отношении галлюцинаций, предвзятости, рассуждений, качества генерации и механики использования.

Однако каждый определяет значение определенных режимов отказов по-разному. Например, LLM, разработанный для работы в сфере здравоохранения, должен уделять особое внимание тестированию на галлюцинации, в то время как LLM, помогающий судье в суде, должен проявлять справедливость или, по крайней мере, проявлять меньшую предвзятость, чем человеческий судья. Инженеры могут быть заинтересованы только в скорости и стоимости, на основе определенного уровня производительности.

Создание единой модели LLM, соответствующей всем 5 основным принципам проверки на надежность, является постоянным вызовом. Даже если в механике есть прогресс, это может привести к снижению качества генерации, но достижение прогресса в улучшении качества вывода может постепенно выявлять галлюцинации или предубеждения!

Решать, что делает LLM надежным, остается на усмотрение каждой организации, специалистов, конечных пользователей и вас! Что бы вы сделали, если бы вам было необходимо избежать галлюцинаций, но при этом ухудшить общее качество генерации? Какими принципами надежности не обладает ваш LLM, и как вы это выясните?

Спасибо за чтение! Не забудьте ознакомиться с моими результатами прикладного тестирования LLM здесь, чтобы узнать больше о производительности GPT-4, инженерии подсказок и общих задачах NLP.

Все изображения графиков представлены в виде скриншотов из Kolena, если не указано иное. Обратите внимание, что подобные графики можно создавать вручную с использованием общих инструментов, таких как mathplotlib.